JP6908944B2

JP6908944B2 - 多重カメラまたはサラウンドビューモニタリングに利用されるために、ターゲット物体統合ネットワーク及びターゲット物体予測ネットワークを利用して、重要業績評価指標のようなユーザー要求事項に適用可能なｃｎｎ基盤の物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置

Info

Publication number: JP6908944B2
Application number: JP2020002988A
Authority: JP
Inventors: 桂賢金; 鎔重金; 寅洙金; 鶴京金; 雲鉉南; 碩▲ふん▼ 夫; 明哲成; 東勳呂; 宇宙柳; 泰雄張; 景中鄭; 泓模諸; 浩辰趙
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-22
Filing date: 2020-01-10
Publication date: 2021-07-28
Anticipated expiration: 2040-01-10
Also published as: KR102328731B1; EP3686798B1; JP2020119547A; EP3686798A1; CN111461319A; US10430691B1; CN111461319B; KR20200091331A

Description

本発明は、多重カメラまたはサラウンドビューモニタリング（ＳｕｒｒｏｕｎｄＶｉｅｗＭｏｎｉｔｏｒｉｎｇ）に利用されるために、ターゲット物体統合ネットワーク及びターゲット領域予測ネットワークを利用して、重要業績評価指標（ＫＰＩ）のようなユーザー要求事項に適用可能なＣＮＮ基盤の物体検出器を学習する方法に関し；より詳細には、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングビデオが取得されると、（ｉ）イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第１フレームに対応する第１イメージピラミッドに含まれた第１＿１イメージないし第１＿ｎイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第１予測ターゲット領域にそれぞれ対応する、第１＿１加工イメージないし前記第１＿ｎ加工イメージを生成するようにし、前記第１＿１加工イメージないし第１＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することにより、少なくとも一つの第１特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージそれぞれに位置する一つ以上の物体に対応する第１＿１物体プロポーザルないし第１＿ｎ物体プロポーザルを出力するようにし、プーリングレイヤをもって、前記第１特徴マップ上で、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力するようにし、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力するようにし、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを生成するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階；及び（ｂ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、前記第ｋ−１フレーム上で、前記ターゲット物体が位置すると予測される第ｋ−１ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋフレーム上で、前記ｋ−１ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上の前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力するようにし、前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力するようにし、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階；を含むことを特徴とする方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置に関する。

機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）において、コンボリューションニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、視覚的イメージ分析に成功的に適用された深層フィードフォワード人工ニューラルネットワーク（Ｄｅｅｐｆｅｅｄｆｏｒｗａｒｄａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）である。

ＣＮＮ基盤の物体検出器は、（ｉ）一つ以上のコンボリューションレイヤをもって、入力イメージにコンボリューション演算を適用することにより、前記入力イメージに対応した特徴マップを出力し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して、前記入力イメージ内の物体に対応するプロポーザルを確認し、（ｉｉｉ）プーリングレイヤをもって、前記確認されたプロポーザルに対応する前記特徴マップ上の領域に少なくとも一つのプーリング演算を適用して、プーリング済み特徴マップを取得し、（ｉｖ）ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）レイヤをもって、少なくとも一つのＦＣ演算を、前記取得されたプーリング済み特徴マップないし前記物体に関する出力クラス情報と、リグレッション情報とに適用することにより、前記入力イメージ上の前記物体を検出する。

だが、前記ＣＮＮ基盤の物体検出器は、前記コンボリューションレイヤにより前記入力イメージのサイズを縮小したサイズの前記特徴マップを用いることになるので、前記入力イメージに位置するサイズの大きい物体は容易に検出されるが、前記入力イメージに位置するサイズの小さい物体を検出することは難しい。

すなわち、前記入力イメージ上で検出される対象としての一つ以上の物体に対応する多数のターゲット領域がある場合、一部ターゲット領域からはサイズのために所望の特徴が正確に抽出され得なくなり、それに伴って特定の物体は検出することができなくなる。

これらの問題を解決するために、前記入力イメージから得たイメージピラミッドのうちそれぞれのイメージ内に前記ターゲット領域それぞれをクロップして物体検出を遂行することができるものの、この場合には前記ターゲット領域に対応してクロップしたそれぞれのイメージに対して前記物体検出を遂行しなければならないため、演算量が増加し得る。

また、ＣＮＮ演算は、迅速な演算のために一定の単位、一例として、３２、６４、１２８などの倍数でブロック演算を行うにおいて、前記単位の倍数にならない幅や高さを有する入力イメージが取得されると、前記単位の倍数にするために一つ以上のパディング領域を追加しなければならないが、これは前記ＣＮＮ演算に負担となる。したがって、前記単位の倍数ではない幅や高さを有するクロップしたイメージが多くなると、前記ＣＮＮ演算にさらに大きな負担として作用して前記ＣＮＮの演算速度は減少するようになる。

したがって、本発明の発明者は、前記入力イメージ上に位置する様々なサイズの物体に対応する前記ターゲット領域を利用して、前記ＣＮＮの演算時間を減らし、効果的に物体を検出することができる学習方法、学習装置及びそれを利用したテスト方法とテスティング装置を提案することにする。

本発明は、前述した問題点を全て解決することを目的とする。

本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出することができるようにするＣＮＮ基盤の物体検出器を提供することを他の目的とする。

本発明は、演算量を増加させずに前記イメージ上の前記物体を検出することができるようにする、前記ＣＮＮ基盤の前記物体検出器を提供することをまた他の目的とする。

本発明は、前記入力イメージ上の様々なサイズの前記物体に対応するターゲット領域を利用して、前記ＣＮＮの演算時間を減らし、効果的に前記物体を検出することができるようにする前記ＣＮＮ基盤の前記物体検出器を提供することを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。

本発明の一態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、（ａ）少なくとも一つのトレーニングビデオが取得されると、学習装置が、（ｉ）イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第１フレームに対応する第１イメージピラミッドに含まれた第１＿１イメージないし第１＿ｎイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第１予測ターゲット領域にそれぞれ対応する、第１＿１加工イメージないし前記第１＿ｎ加工イメージを生成するようにし、前記第１＿１加工イメージないし第１＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージそれぞれに位置する一つ以上の物体に対応する第１＿１物体プロポーザルないし第１＿ｎ物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１特徴マップ上で、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに一つ以上のＦＣ演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを生成するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階；及び（ｂ）ｋを２からｎまで増加させながら、前記学習装置が、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、前記第ｋ−１フレーム上で、前記ターゲット物体が位置すると予測される第ｋ−１ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋフレーム上で、前記ｋ−１ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階；を含むことを特徴とする方法が提供される。

一例として、前記（ａ）段階で、前記学習装置は、ＲＰＮロスレイヤをもって、前記第１統合物体プロポーザルの情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記（ｂ）段階で、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整する。

一例として、前記（ａ）段階で、前記学習装置が、前記イメージ加工ネットワークをもって、第１＿１加工イメージないし前記第１＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第１＿１調整済み加工イメージないし前記第１＿ｎ調整済み加工イメージをコンカチネートするようにし、前記（ｂ）段階で、前記学習装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に前記第ｋ＿１調整済み加工イメージないし前記第ｋ＿ｎ調整済み加工イメージをコンカチネートするようにする。

一例として、前記学習装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１調整済み加工イメージないし前記第ｋ＿ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにする。

一例として、第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が第１閾値以上になるかを判断するようにし、（Ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

一例として、第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（Ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されたら、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスの中から、（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。

一例として、前記（ｂ）段階で、前記学習装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１物体プロポーザルないし前記ｋ＿ｎ物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域である。

本発明の他の態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したＣＮＮ基盤の物体検出器のテスティングする方法において、（ａ）学習装置が、（１）（ｉ）イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第１学習用フレームに対応する第１学習用イメージピラミッドに含まれた第１＿１トレーニングイメージないし第１＿ｎトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第１学習用予測ターゲット領域にそれぞれ対応する、第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージを生成するようにし、前記第１＿１学習用加工イメージないし第１＿ｎ学習用加工イメージをコンカチネートした第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１学習用特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１学習用特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第１＿１学習用物体プロポーザルないし第１＿ｎ学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記学習用物体に対応する第１＿１学習用物体検出情報ないし第１＿ｎ学習用物体検出情報を出力するようにし、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルを統合して第１学習用統合物体プロポーザルを生成するようにし、前記第１＿１学習用物体検出情報ないし前記第１＿ｎ学習用物体検出情報を統合して第１学習用統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び（２）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１学習用物体プロポーザルないし第（ｋ−１）＿ｎ学習用物体プロポーザルを参照して、前記第ｋ−１学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第ｋ−１学習用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋ学習用フレーム上で、前記ｋ−１学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ学習用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋ学習用フレームに対応する第ｋ学習用イメージピラミッド内に含まれた第ｋ＿１トレーニングイメージないし第ｋ＿ｎトレーニングイメージそれぞれから、前記ｋ学習用予測ターゲット領域にそれぞれ対応する、第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージを生成するようにし、前記第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ学習用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージそれぞれに位置する前記学習用物体に対応する第ｋ＿１学習用物体プロポーザルないし第ｋ＿ｎ学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記学習用物体に対応する第ｋ＿１学習用物体検出情報ないし第ｋ＿ｎ学習用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルを統合して第ｋ学習用統合物体プロポーザルを生成するようにし、前記第ｋ＿１学習用物体検出情報ないし前記第ｋ＿ｎ学習用物体検出情報を統合して第ｋ学習用統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で；少なくとも一つのテストビデオが取得されると、テスティング装置が、（ｉ）前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第１テスト用フレームに対応する第１テスト用イメージピラミッドに含まれた第１＿１テストイメージないし第１＿ｎテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第１テスト用予測ターゲット領域にそれぞれ対応する、第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージを生成するようにし、前記第１＿１テスト用加工イメージないし第１＿ｎテスト用加工イメージをコンカチネートした第１統合テストイメージを生成するようにし、（ｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第１統合テストイメージに適用することで、少なくとも一つの第１テスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１統合テストイメージ内に含まれた前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第１＿１テスト用物体プロポーザルないし第１＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１＿１テスト用物体検出情報ないし第１＿ｎテスト用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを統合して第１テスト用統合物体プロポーザルを生成するようにし、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報を統合して第１テスト用統合物体検出情報を生成するようにする段階；及び（ｂ）前記テスティング装置が、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合テストイメージ上の第（ｋ−１）＿１テスト用物体プロポーザルないし第（ｋ−１）＿ｎテスト用物体プロポーザルを参照して、前記第ｋ−１テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第ｋ−１テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋテスト用フレーム上で、前記ｋ−１テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋテスト用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋテスト用フレームに対応する第ｋテスト用イメージピラミッド内に含まれた第ｋ＿１テストイメージないし第ｋ＿ｎテストイメージそれぞれから、前記ｋテスト用予測ターゲット領域にそれぞれ対応する、第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージを生成するようにし、前記第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージをコンカチネートした第ｋ統合テスト用イメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合テストイメージに適用することで第ｋテスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋテスト用特徴マップを利用して、前記第ｋ統合テストイメージ内に含まれた前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第ｋ＿１テスト用物体プロポーザルないし第ｋ＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第ｋ＿１テスト用物体検出情報ないし第ｋ＿ｎテスト用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルを統合して第ｋテスト用統合物体プロポーザルを生成するようにし、前記第ｋ＿１テスト用物体検出情報ないし前記第ｋ＿ｎテスト用物体検出情報を統合して第ｋテスト用統合物体検出情報を生成するようにする段階；を含むことを特徴とする方法が提供される。

一例として、前記（１）プロセスで、前記学習装置は、少なくとも一つのＲＰＮロスレイヤをもって、前記第１学習用統合物体プロポーザルの情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記（２）プロセスで、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整する。

一例として、前記（ａ）段階で、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１＿１テスト用調整済み加工イメージないし前記第１＿ｎテスト用調整済み加工イメージをコンカチネートするようにし、前記（ｂ）段階で、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第ｋ＿１テスト用調整済み加工イメージないし前記第ｋ＿ｎテスト用調整済み加工イメージをコンカチネートする。

一例として、前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用調整済み加工イメージないし前記第ｋ＿ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにする。

一例として、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

一例として、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。

一例として、前記（ｂ）段階で、前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）テスト用特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１テスト用物体プロポーザルないし前記ｋ＿ｎテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域である。

本発明のまた他の態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習するための学習装置において、インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）（ｉ）イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第１フレームに対応する第１イメージピラミッドに含まれた第１＿１イメージないし第１＿ｎイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第１予測ターゲット領域にそれぞれ対応する、第１＿１加工イメージないし前記第１＿ｎ加工イメージを生成するようにし、前記第１＿１加工イメージないし第１＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージそれぞれに位置する一つ以上の物体に対応する第１＿１物体プロポーザルないし第１＿ｎ物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１特徴マップ上で、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに一つ以上のＦＣ演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを生成するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、前記第ｋ−１フレーム上で、前記ターゲット物体が位置すると予測される第ｋ−１ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋフレーム上で、前記ｋ−１ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする学習装置が提供される。

一例として、前記（Ｉ）プロセスで、前記プロセッサは、少なくとも一つのＲＰＮロスレイヤをもって、前記第１統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、前記（ＩＩ）プロセスで、前記プロセッサは、前記ＲＰＮロスレイヤをもって、前記第ｋ統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整する。

一例として、前記（Ｉ）プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１＿１調整済み加工イメージないし前記第１＿ｎ調整済み加工イメージをコンカチネートするようにし、前記（ＩＩ）プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第ｋ＿１調整済み加工イメージないし前記第ｋ＿ｎ調整済み加工イメージをコンカチネートするようにするする。

一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１調整済み加工イメージないし前記第ｋ＿ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにする。

一例として、第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されると、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

一例として、第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１物体プロポーザルないし前記ｋ＿ｎ物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域である。

本発明のまた他の態様によれば、ターゲット物体統合予測ネットワークと、ターゲット領域予測物体ネットワークとを利用したＣＮＮ基盤の物体検出器をテスティングするためのテスティング装置において、インストラクションを格納する少なくとも一つのメモリ；及び（１）学習装置が、（ｉ）イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第１学習用フレームに対応する第１学習用イメージピラミッドに含まれた第１＿１トレーニングイメージないし第１＿ｎトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第１学習用予測ターゲット領域にそれぞれ対応する、第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージを生成するようにし、前記第１＿１学習用加工イメージないし第１＿ｎ学習用加工イメージをコンカチネートした第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１学習用特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１学習用特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第１＿１学習用物体プロポーザルないし第１＿ｎ学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記学習用物体に対応する第１＿１学習用物体検出情報ないし第１＿ｎ学習用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記学習用第１＿１物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルを統合して第１学習用統合物体プロポーザルを生成するようにし、前記第１＿１学習用物体検出情報ないし前記第１＿ｎ学習用物体検出情報を統合して第１学習用統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び（２）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１学習用物体プロポーザルないし第（ｋ−１）＿ｎ学習用物体プロポーザルを参照して、前記第ｋ−１学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第ｋ−１学習用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋ学習用フレーム上で、前記ｋ−１学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ学習用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋ学習用フレームに対応する第ｋ学習用イメージピラミッド内に含まれた第ｋ＿１トレーニングイメージないし第ｋ＿ｎトレーニングイメージそれぞれから、前記ｋ学習用予測ターゲット領域にそれぞれ対応する、第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージを生成するようにし、前記第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ学習用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージそれぞれに位置する前記学習用物体に対応する第ｋ＿１学習用物体プロポーザルないし第ｋ＿ｎ学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記学習用物体に対応する第ｋ＿１学習用物体検出情報ないし第ｋ＿ｎ学習用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルを統合して第ｋ学習用統合物体プロポーザルを生成するようにし、前記第ｋ＿１学習用物体検出情報ないし前記第ｋ＿ｎ学習用物体検出情報を統合して第ｋ学習用統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で；（Ｉ）（ｉ）前記イメージ加工ネットワークをもって、少なくとも一つのテストビデオの現在フレームである第１テスト用フレームに対応する第１テスト用イメージピラミッドに含まれた第１＿１テストイメージないし第１＿ｎテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第１テスト用予測ターゲット領域にそれぞれ対応する、第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージを生成するようにし、前記第１＿１テスト用加工イメージないし第１＿ｎテスト用加工イメージをコンカチネートした第１統合テストイメージを生成するようにし、（ｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第１統合テストイメージに適用することで、少なくとも一つの第１テスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１統合テストイメージ内に含まれた前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第１＿１テスト用物体プロポーザルないし第１＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１＿１テスト用物体検出情報ないし第１＿ｎテスト用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを統合して第１テスト用統合物体プロポーザルを生成するようにし、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報を統合して第１テスト用統合物体検出情報を生成するようにするプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合テストイメージ上の第（ｋ−１）＿１テスト用物体プロポーザルないし第（ｋ−１）＿ｎテスト用物体プロポーザルを参照して、前記第ｋ−１テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第ｋ−１テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋテスト用フレーム上で、前記ｋ−１テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋテスト用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋテスト用フレームに対応する第ｋテスト用イメージピラミッド内に含まれた第ｋ＿１テストイメージないし第ｋ＿ｎテストイメージそれぞれから、前記ｋテスト用予測ターゲット領域にそれぞれ対応する、第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージを生成するようにし、前記第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージをコンカチネートした第ｋ統合テスト用イメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合テストイメージに適用することで第ｋテスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋテスト用特徴マップを利用して、前記第ｋ統合テストイメージ内に含まれた前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第ｋ＿１テスト用物体プロポーザルないし第ｋ＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋテスト用統合特徴マップ上で、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第ｋ＿１テスト用物体検出情報ないし第ｋ＿ｎテスト用物体検出情報を出力するようにし、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルを統合して第ｋテスト用統合物体プロポーザルを生成するようにし、前記第ｋ＿１テスト用物体検出情報ないし前記第ｋ＿ｎテスト用物体検出情報を統合して第ｋテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするテスティング装置が提供される。

一例として、前記（Ｉ）プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１＿１テスト用調整済み加工イメージないし前記第１＿ｎテスト用調整済み加工イメージをコンカチネートするようにし、前記（ＩＩ）プロセスで、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第ｋ＿１テスト用調整済み加工イメージないし前記第ｋ＿ｎテスト用調整済み加工イメージをコンカチネートする。

一例として、前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用調整済み加工イメージないし前記第ｋ＿ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、前記コンボリューションレイヤの多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにする。

一例として、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されると、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

一例として、第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。

一例として、前記（ＩＩ）プロセスで、前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）テスト用特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１テスト用物体プロポーザルないし前記ｋ＿ｎテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域である。

本発明は、イメージ上に位置する物体をサイズに関係なく効果的に検出し得る効果がある。

また、本発明は、演算量を増加させずに前記イメージ内の物体を検出し得る効果がある。

また、本発明は、サイズが多様な物体に対応するターゲット領域を利用して、ＣＮＮの演算量を減らしながら効果的に物体を検出し得る効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
本発明の一例に係るターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用した、ＣＮＮ基盤物体検出器を学習する学習装置を概略的に示した図面である。本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記ＣＮＮ基盤物体検出器を学習する方法を概略的に示した図面である。本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット物体予測ネットワークとを利用した、前記ＣＮＮ基盤物体検出器学習に利用されるイメージピラミッド上でそれぞれのターゲット領域を予測するプロセスを概略的に示した図面である。本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット物体予測ネットワークとを利用した、前記ＣＮＮ基盤物体検出器学習に利用されるそれぞれのターゲット領域に対応する加工済みイメージをコンカチネートするプロセスを概略的に示した図面である。本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記ＣＮＮ基盤物体検出器学習に利用される一つ以上のターゲット物体を統合するプロセスを概略的に示した図面である。本発明の一例に係る前記ターゲット物体予測ネットワークと、前記ターゲット物体統合ネットワークとを利用した、前記ＣＮＮ基盤物体検出器の学習方法において考慮される、ＲＰＮから出力される物体プロポーザルを利用してターゲット領域を探すプロセスを概略的に示した図面である。本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記ＣＮＮ基盤物体検出器をテスティングするテスティング装置を概略的に示した図面である。本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記ＣＮＮ基盤物体検出器をテスティングするテスティング方法を概略的に示した図面である。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、本発明の一例に係るターゲット物体統合ネットワークと、ターゲット物体予測ネットワークとを利用した、ＣＮＮ基盤物体検出器を学習する学習装置を概略的に示したもので、図１を参照すれば、前記試験装置１００は、通信部１１０とプロセッサ１２０とを含み得る。

まず、前記通信部１１０は、少なくとも一つのトレーニングビデオを取得するか、他の装置をもって取得するように支援し得る。

この際、前記トレーニングイメージは、データベース１３０に格納され得、前記データベース１３０は、前記トレーニングビデオにそれぞれのフレームが位置する一つ以上の物体それぞれに対応するクラス情報及び位置情報に対する少なくとも一つのＧＴ（ｇｒｏｕｎｄｔｒｕｔｈ）を格納し得る。また、前記データベース１３０は、前記トレーニングビデオのそれぞれの前記フレームをリサイズして生成された、リサイズされたイメージ内に位置する前記物体それぞれに関する位置情報及びクラス情報に関する少なくとも一つのＧＴを格納し得る。

また、前記学習装置は、後述されるプロセスを遂行するコンピュータ読取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ１１５をさらに含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体等は、一つのプロセッサに統合されて機能することもできる。

次に、前記プロセッサ１２０は（ｉ）イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第１フレームに対応する第１イメージピラミッドに含まれた第１＿１イメージないし第１＿ｎイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第１予測ターゲット領域にそれぞれ対応する、第１＿１加工イメージないし前記第１＿ｎ加工イメージを生成するようにし、前記第１＿１加工イメージないし第１＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージそれぞれに位置する一つ以上の物体に対応する第１＿１物体プロポーザルないし第１＿ｎ物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１特徴マップ上で、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに一つ以上のＦＣ演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを生成するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行する。また、前記プロセッサ１２０は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、前記第ｋ−１フレーム上で、前記ターゲット物体が位置すると予測される第ｋ−１ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋフレーム上で、前記ｋ−１ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行する。

また、前記プロセッサ１２０は、ＲＰＮロスレイヤをもって、前記第１統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を学習するようにし、前記ＲＰＮロスレイヤをもって、前記第ｋ統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を学習する。

この際、本発明の一例に係る前記学習装置１００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置１００として採択され得る。また、図１では一つの学習装置１００のみを示したが、これに限定されず、前記学習装置は複数に分けて役割を遂行することもできる。

このように構成された本発明の一例に係る前記学習装置１００を利用して、前記ターゲット物体統合ネットワーク及び前記ターゲット物体統合ネットワークを利用してＣＮＮ基盤物体検出器のパラメータを学習する方法を、図２を参照して説明する。

まず、前記トレーニングビデオが入力されれば、前記学習装置１００が、イメージ加工ネットワーク１１１をもって、前記トレーニングビデオの現在のフレームである前記第１フレームに対応する前記第１イメージピラミッドに含まれた前記第１＿１イメージないし前記第１＿ｎのイメージのそれぞれにおいて、前記ターゲット物体が位置するものと推定される前記第１予測ターゲット領域にそれぞれ対応する、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージを生成するようにする。

この際、前記第１予測ターゲット領域は、ターゲット領域予測ネットワーク１２１によって設定された領域であり得る。そして、前記ターゲット領域予測ネットワーク１２１は、前記第１＿１イメージないし前記１＿ｎイメージそれぞれに対するそれぞれのスケールヒストグラムを演算し、前記スケールヒストグラムを参照することによって、前記ターゲット物体が位置するものと予測されるスケールプロポーザルに対応する前記第１予測ターゲット領域を探すことができる。また、前記ターゲット領域予測ネットワーク１２１は、前記１＿１イメージないし前記１＿ｎイメージそれぞれに対してセグメンテーションを遂行し、前記セグメンテーションを基盤として前記ターゲット領域を探し出すためのシード（ｓｅｅｄ）を設定した後、小さなターゲット領域が繰り返し統合された統合領域を参照して前記ターゲット領域を設定することができる。また、前記ターゲット領域予測ネットワーク１２１は、フォアグラウンドセグメンテーション（ｆｏｒｅｇｒｏｕｎｄｓｅｇｍｅｎｔａｔｉｏｎ）を通じてそれぞれの前記第１＿１イメージないし第１＿ｎイメージ上のフォアグラウンドを確認し、前記確認されたフォアグラウンドを参照して、少なくとも一つのターゲット物体が位置するものと予測され、前記少なくとも一つのターゲット物体を含むものと予測されるサイズの、少なくとも一つの領域を前記第１予測ターゲット領域に設定することができる。これに加えて、前記ターゲット領域予測ネットワーク１２１は、重要度検出（ｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎ）方法を利用して、前記第１予測ターゲット領域を設定することができる。しかし、本願発明はこれに限定されず、イメージ内のターゲット物体が位置すると予測されるターゲット領域を探し出すすべての方法が利用され得る。

一例として、図３を参照すれば、前記第１予測ターゲット領域のうち、前記第１＿１予測ターゲット領域を含む前記第１＿１イメージＰ１を前記第１＿１加工イメージＭＩ１として取得し得り、前記第１＿２イメージＰ２上の前記第１予測ターゲット領域のうち、前記第１＿２予測ターゲット領域に対応する前記第１＿２加工イメージＭＩ２が生成され得、前記第１＿３イメージＰ３上の前記第１予測ターゲット領域のうち、前記第１＿３予測ターゲット領域に対応する前記第１＿３加工イメージＭＩ３が生成され得る。

次に、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１＿１加工イメージないし前記第１＿３加工イメージをコンカチネートした前記第１統合トレーニングイメージを生成させ得る。

この際、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１＿１加工イメージないし前記第１＿３加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１＿１調整済み加工イメージないし前記第１＿３調整済み加工イメージをコンカチネートさせることができる。

そして、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第１＿１調整済み加工イメージないし前記第１＿３調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージで構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加させることができる。前記コンボリューションレイヤの多重コンボリューション演算によって前記第１統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることができる。これを通じて、前記ＣＮＮのオーバーヘッド（ｏｖｅｒｈｅａｄ）を最小化することができる。

一例として、図４を参照すると、図３の過程を通じて生成された前記第１＿１加工イメージＭＩ１、前記第１＿２加工イメージＭＩ２、及び前記第１＿３加工イメージＭＩ３は、互いに高さが同じに調整された後、コンカチネートされ得る。その際、それぞれのゼロパディング領域（ＰＲ）は、それぞれの前記隣接した調整済み加工イメージの間に追加され得る。他の例示として、前記加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれの加工イメージをコンカチネートするか、前記幅と前記高さとを同一に調整した後、前記それぞれの加工イメージを大きな正方形状にコンカチネートすることができる。

次に、前記学習装置１００は、コンボリューションレイヤ１２２をもって、前記第１統合トレーニングイメージに前記コンボリューション演算を適用することにより、少なくとも一つの第１統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ１２２は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。

次に、前記学習装置１００は、ＲＰＮ１２３をもって、前記第１統合特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージ内に位置する前記物体に対応する一つ以上の第１＿１物体プロポーザルないし一つ以上の第１＿ｎ物体プロポーザルを出力させることができる。

この際、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルそれぞれは、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージ内に位置する前記物体それぞれに対応することができ、前記物体プロポーザルそれぞれは、前記物体それぞれ、すなわち、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域それぞれが物体であるか否かに関する情報を有する各プロポーザルボックスに関する情報とを含むことができる。この際、物体であるか否かに対する情報は、前記それぞれの物体プロポーザルが物体であると予測される確率情報を含み得、前記プロポーザルボックスに関する情報は、前記プロポーザルボックスが前記物体の位置に一致すると予測される確率情報を含み得る。

次に、前記学習装置１００は、プーリングレイヤ１２４をもって、前記第１統合特徴マップ上で前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１プーリング済み統合特徴マップを出力させ、ＦＣレイヤ１２５をもって、前記第１プーリング済み統合特徴マップに前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力させることができる。

この際、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報は、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する前記物体それぞれに関するクラス情報とバウンディングボックスに関する情報（つまり、前記物体それぞれに関する位置情報）を含むことができる。また、前記クラス情報は、前記物体それぞれが該当クラスと予測される確率情報を含み得、前記バウンディングボックスに関する情報は、前記バウンディングボックスそれぞれが前記物体の位置に一致するものと予測される確率情報を含み得る。

その後、前記学習装置１００は、（ｉ）前記ターゲット物体統合ネットワーク１２６をもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを出力するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を出力するようにする。ここで、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対する情報は、前記トレーニングビデオ内の前記現在のフレームである前記第１フレームに対応されるように変換され得る。

一例として、図５を参照すれば、前記第１＿１加工イメージＭＩ１及び前記第１＿２加工イメージＭＩ２上に少なくとも一つの特定同一物体が位置し、前記第１＿１加工イメージＭＩ１上の前記第１＿１物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１＿１特定物体プロポーザルＰＢ１とし、前記第１＿２加工イメージＭＩ２上の前記第１＿２物体プロポーザルの中の、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１＿２特定物体プロポーザルＰＢ２とした場合、前記学習装置１００は、前記ターゲット物体統合ネットワーク１２６をもって、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２との間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにする。その後、前記ＩＯＵが前記第１閾値未満と判断されれば、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２との間の調整ＩＯＵが算出されるようにする。

この際、前記調整ＩＯＵは、前記第１＿２加工イメージＭＩ２上で前記第１＿１特定物体プロポーザルＰＢ１に対応する領域、すなわち、交差領域ＰＢ１，ＭＩ２と、前記第１＿１加工イメージＭＩ１上で前記第１＿２特定物体プロポーザルＰＢ２に対応する領域、すなわち、交差領域ＰＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

しかし、前記調整ＩＯＵが前記第２閾値以上と判断されれば、前記学習装置１００は、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２との中から、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングビデオの現在フレームである前記第１フレーム上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成する。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２とが、それぞれ異なる物体に対応すると判断する。つまり、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２との間の前記ＩＯＵが前記第１閾値未満であり、これらの間の前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２とがそれぞれ異なる物体に対応するものと判断する。

一方、前記第１＿１特定物体プロポーザルＰＢ１と、前記第２特定物体プロポーザルＰＢ２との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記学習装置は、前記第１＿１特定物体プロポーザルＰＢ１と、前記第１＿２特定物体プロポーザルＰＢ２との中から（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記加工イメージＭＩ１及びＭＩ２上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する前記特定統合物体プロポーザルとして生成する。

また、図５を参照すれば、前記第１＿１加工イメージＭＩ１及び前記第１＿２加工イメージＭＩ２上に少なくとも一つの特定同一物体が位置し、前記第１＿１加工イメージＭＩ１上で、前記第１＿１物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１＿１特定物体バウンディングボックスＢＢ１とし、前記第１＿２加工イメージＭＩ２上で、前記第１＿２物体検出情報に含まれた物体バウンディングボックスの中の、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１＿２特定物体バウンディングボックスＢＢ２とした場合、前記学習装置１００は、前記ターゲット物体統合ネットワーク１２６をもって、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２との間のＩＯＵが、前記第１閾値以上になるかを判断するようにする。この際、前記物体プロポーザル間のＩＯＵ判断に利用された前記第１閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第１閾値とは、同じこともあり得、同じくないこともあり得る。その後、前記バウンディングボックス間のＩＯＵが前記第１閾値未満と判断されれば、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２との間の調整ＩＯＵが算出される。

この際、前記調整ＩＯＵは、前記第１＿２加工イメージＭＩ２上で前記第１＿１特定物体バウンディングボックスＢＢ１に対応する領域、すなわち、交差領域ＢＢ１，ＭＩ２と、前記第１＿１加工イメージＭＩ１上で前記第１＿２特定物体バウンディングボックスＢＢ２に対応する領域、すなわち、交差領域ＢＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記調整ＩＯＵが前記第２閾値以上と判断されれば、前記学習装置１００は、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２との中から、（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングビデオの現在フレームである前記第１フレーム上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成する。この際、前記物体プロポーザル間のＩＯＵ判断に利用された前記第２閾値と、前記物体バウンディングボックス間のＩＯＵ判断に利用された前記第２閾値とは、同じこともあり得、同じくないこともあり得る。

しかし、前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２とが、それぞれ異なる物体に対応すると判断する。つまり、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２との間の前記ＩＯＵが前記第１閾値未満であり、これらの間の前記調整ＩＯＵが前記第２閾値未満と判断されれば、前記学習装置１００は、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２とがそれぞれ異なる物体に対応するものと判断する。

一方、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記学習装置は、前記第１＿１特定物体バウンディングボックスＢＢ１と、前記第１＿２特定物体バウンディングボックスＢＢ２との中から（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記加工イメージＭＩ１及びＭＩ２上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する前記特定統合物体検出情報として生成する。

次に、前記学習装置１００は、少なくとも一つのＦＣロスレイヤ１２８をもって、前記第１統合物体検出情報と、これに対応するＧＴとを参照して一つ以上の第１ＦＣロスを取得するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーションによって、前記ＦＣレイヤ１２５及び前記コンボリューションレイヤ１２２のパラメータの中の少なくとも一部を学習し得る。

また、前記学習装置１００は、少なくとも一つのＲＰＮロスレイヤ１２９をもって、前記第１物体プロポーザルと、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮ１２３のパラメータの中の少なくとも一部を調整し得る。

次に、前記学習装置１００は、ターゲット物体予測ネットワーク１２７をもって、前記第１＿１加工イメージないし前記１＿ｎ加工イメージ上の前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを参照して、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージ上で前記ターゲット物体が位置するものと予測される領域に対応する第１ターゲット領域を探すようにし得る。

一例として、図６を参照すれば、前記ターゲット物体予測ネットワーク１２７は（ｉ）特定加工イメージをＭｘＮグリッドに区分し、（ｉｉ）前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するプロポーザルの数を示す少なくとも一つ以上のヒストグラムを生成し、前記グリッドの各セル内にそれに対応する前記プロポーザルそれぞれの全体領域または分割の領域が存在し、好ましくは、前記対応するプロポーザルのサイズが、前記ＲＰＮ１２３から出力された前記物体プロポーザルのうち、前記ターゲット物体のサイズに対応する予め設定されたサイズより小さくなるようにすることができ、（ｉｉｉ）前記第１ターゲット領域のサイズに対応するＰｘＱサイズを有するムービングウィンドウの少なくとも一つの領域を利用して前記ターゲット領域ＴＲを決定し、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域の中の前記ヒストグラムの合計が最も大きい値を有し得る。

次に、前記学習装置１００は、前記ターゲット領域予測ネットワーク１２１をもって、前記トレーニングビデオの前記第１フレームの次のフレームである第２フレーム上で、前記第１ターゲット領域が位置するものと予測される、少なくとも一つの領域に対応する第２予測ターゲット領域を探すようにすることができる。

その後、前記学習装置１００は、前記イメージ加工ネットワーク１１１をもって、前記第２フレームに対応する第２イメージピラミッドに含まれた第２＿１イメージないし第２＿ｎイメージそれぞれにおいて、第２予測ターゲット領域にそれぞれ対応する第２＿１加工イメージないし第２＿ｎ加工イメージを生成するようにし、前記第２＿１加工イメージないし前記第２＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第２統合トレーニングイメージを生成するようにし、前記のような過程を繰り返し、前記トレーニングビデオ上でのターゲット物体を効果的に検出し得るようになる。

つまり、前記学習装置１００は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワーク１２７をもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、第ｋ−１フレーム上で前記ターゲット物体が位置するものと予測される第ｋ−１ターゲット領域を探すようにし、（ｉｉ）前記ターゲット領域予測ネットワーク１２１をもって、前記第ｋフレーム上で前記第ｋ−１ターゲット領域が位置するものと予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにするプロセスを遂行するか、他の装置をもって遂行するよう支援し得る。次に、前記学習装置１００は、イメージ加工ネットワーク１２１をもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにする。その後、前記学習装置１００は（ｉ）前記コンボリューションレイヤ１２２をもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することにより、第ｋ統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮ１２３をもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージに含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する一つ以上の前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤ１２４をもって、前記第ｋ統合特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み統合特徴マップを出力させ、（ｉｖ）前記ＦＣレイヤ１２５をもって、前記第ｋプーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力するようにする。その後、前記学習装置１００は（ｉ）前記ターゲット物体統合ネットワーク１２６をもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにするプロセス、及び（ｉｉ）前記ＦＣロスレイヤ１２８をもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを算出するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤ１２５と、前記コンボリューションレイヤ１２２のパラメータとの中の少なくとも一部を学習するプロセスを遂行し得る。また、前記学習装置１００は、前記ＲＰＮロスレイヤ１２９をもって、前記第ｋ物体プロポーザルと、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮ１２３のパラメータの中の少なくとも一部を学習し得る。

前記のような方法により、前記トレーニングビデオのそれぞれのフレームに位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出し得るようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮ基盤の前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記トレーニングビデオのそれぞれの前記フレーム上にターゲット物体が一つである場合を想定して説明したが、前記トレーニングビデオのそれぞれの前記フレーム上にターゲット物体多数がある場合でも、前記のような方法により前記トレーニングビデオのそれぞれの前記フレーム上に前記それぞれのターゲット物体に対応するそれぞれのターゲット領域を利用して、前記それぞれのターゲット物体の検出が可能である。

図７は、本発明の一例に係る前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した、前記ＣＮＮ基盤の前記物体検出器をテスティングするテスティング装置を概略的に示したもので、図７を参照すれば、前記テスティング装置２００は、通信部２１０とプロセッサ２２０とを含み得る。

まず、前記通信部２１０は、少なくとも一つのテストビデオを取得するか、他の装置をもって取得するように支援し得る。

また、前記テスティング装置は、後述するプロセスを遂行するコンピュータ読み取り可能なインストラクション（ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ２１５を追加的に含み得る。一例として、前記プロセッサ、前記メモリ、及び媒体（ｍｅｄｉｕｍ）等は、一つのプロセッサに統合されて機能することもできる。

この際、前記ターゲット物体統合ネットワークと、前記ターゲット領域予測ネットワークとを利用した前記ＣＮＮ基盤の前記物体検出器は、図１ないし図６を参照して説明された前記学習方法で学習され得る。

参考までに、以下の説明において混乱を避けるために、前記学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。

つまり、少なくとも一つのトレーニングビデオが取得されると、前記学習装置が、（ｉ）イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第１学習用フレームに対応する第１学習用イメージピラミッドに含まれた第１＿１トレーニングイメージないし第１＿ｎトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第１学習用予測ターゲット領域にそれぞれ対応する、第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージを生成するようにし、前記第１＿１学習用加工イメージないし第１＿ｎ学習用加工イメージをコンカチネートした第１統合トレーニングイメージを生成するようにし、（ｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１学習用特徴マップを出力させ、前記ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１学習用特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第１＿１学習用物体プロポーザルないし第１＿ｎ学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力させ、前記ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１学習用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記学習用物体に対応する第１＿１学習用物体検出情報ないし第１＿ｎ学習用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記学習用第１＿１物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルを統合して第１学習用統合物体プロポーザルを生成するようにし、前記第１＿１学習用物体検出情報ないし前記第１＿ｎ学習用物体検出情報を統合して第１学習用統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第１学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行する。その後、前記学習装置が、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１学習用物体プロポーザルないし第（ｋ−１）＿ｎ学習用物体プロポーザルを参照して、前記第ｋ−１学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第ｋ−１学習用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋ学習用フレーム上で、前記ｋ−１学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ学習用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋ学習用フレームに対応する第ｋ学習用イメージピラミッド内に含まれた第ｋ＿１トレーニングイメージないし第ｋ＿ｎトレーニングイメージそれぞれから、前記ｋ学習用予測ターゲット領域にそれぞれ対応する、第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージを生成するようにし、前記第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することにより、第ｋ学習用特徴マップを出力するようにし、前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージそれぞれに位置する一つ以上の前記学習用物体に対応する第ｋ＿１学習用物体プロポーザルないし第ｋ＿ｎ学習用物体プロポーザルを出力するようにし、前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記学習用物体に対応する第ｋ＿１学習用物体検出情報ないし第ｋ＿ｎ学習用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルを統合して第ｋ学習用統合物体プロポーザルを生成するようにし、前記第ｋ＿１学習用物体検出情報ないし前記第ｋ＿ｎ学習用物体検出情報を統合して第ｋ学習用統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行し得る。

また、前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第１学習用統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を学習するようにし、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を学習し得る。

その後、前記プロセッサ２２０は、（ｉ）前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第１テスト用フレームに対応する第１テスト用イメージピラミッドに含まれた第１＿１テストイメージないし第１＿ｎテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第１テスト用予測ターゲット領域にそれぞれ対応する、第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージを生成するようにし、前記第１＿１テスト用加工イメージないし第１＿ｎテスト用加工イメージをコンカチネートした第１統合テストイメージを生成するようにし、（ｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第１統合テストイメージに適用することで、少なくとも一つの第１テスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１統合テストイメージ内に含まれた前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第１＿１テスト用物体プロポーザルないし第１＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１＿１テスト用物体検出情報ないし第１＿ｎテスト用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを統合して第１テスト用統合物体プロポーザルを生成するようにし、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報を統合して第１テスト用統合物体検出情報を生成するようにするプロセスを遂行し得る。その後、前記プロセッサ２２０は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合テストイメージ上の第（ｋ−１）＿１テスト用物体プロポーザルないし第（ｋ−１）＿ｎテスト用物体プロポーザルを参照して、前記第ｋ−１テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第ｋ−１テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋテスト用フレーム上で、前記ｋ−１テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋテスト用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋテスト用フレームに対応する第ｋテスト用イメージピラミッド内に含まれた第ｋ＿１テストイメージないし第ｋ＿ｎテストイメージそれぞれから、前記ｋテスト用予測ターゲット領域にそれぞれ対応する、第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージを生成するようにし、前記第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージをコンカチネートした第ｋ統合テスト用イメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合テストイメージに適用することで第ｋテスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋテスト用特徴マップを利用して、前記第ｋ統合テストイメージ内に含まれた前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第ｋ＿１テスト用物体プロポーザルないし第ｋ＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第ｋ＿１テスト用物体検出情報ないし第ｋ＿ｎテスト用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルを統合して第ｋテスト用統合物体プロポーザルを生成するようにし、前記第ｋ＿１テスト用物体検出情報ないし前記第ｋ＿ｎテスト用物体検出情報を統合して第ｋテスト用統合物体検出情報を生成するようにプロセスを遂行し得る。

この際、本発明の一例に係るテスティング装置２００は、コンピューティング装置であり、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置２００として採択され得る。また、図６では一つのテスティング装置２００のみを示したが、これに限定されず、テスティング装置は複数に分けて役割を遂行することもできる。

本発明の一例に係る前記テスティング装置２００を利用して、前記ターゲット物体統合ネットワーク及び前記ターゲット領域予測ネットワークを利用した前記ＣＮＮ基盤物体検出器をテスティングする方法を、図８を参照して説明する。以下の説明で、図１ないし図６を参照して説明した前記学習方法により容易に理解可能な部分については、詳細な説明を省略することにする。

まず、図１ないし図６を参照して説明した学習方法によってＦＣレイヤ２２５と、コンボリューションレイヤ２２２と、ＲＰＮ２２３のパラメータとの中の少なくとも一部が学習された状態で、前記テストビデオイメージが入力されると、前記テスティング装置２００がイメージ加工ネットワーク２１１をもって、前記テストビデオ内の現在フレームである第１フレームに含まれた前記第１＿１テストイメージないしテストイメージそれぞれにおいて、少なくとも一つのテスト用ターゲット物体が位置するものと予測される、前記第１予測ターゲット領域に対応する前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージを生成するようにする。

ここで、前記第１テスト用予測ターゲット領域は、前記ターゲット領域予測ネットワーク２２１によって設定されるか、前記第１＿１テストイメージないし前記１＿ｎテストイメージを参照して予測され得る。

次に、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージをコンカチネートした前記第１統合テストイメージを生成するようにできる。

この際、前記テスティング装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に前記第１＿１テスト用調整済み加工イメージないし前記第１＿ｎテスト用調整済み加工イメージをコンカチネートするようにし得る。他の例示として、前記テスト用加工イメージの幅を同一に調整した後、前記調整された幅を利用して前記それぞれのテスト用加工イメージをコンカチネートするか、前記幅と前記高さとを同一に調整した後、前記それぞれのテスト用加工イメージを大きな正方形状にコンカチネートすることができる。

そして、前記テスト装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第１＿１テスト用調整済み加工イメージないし前記第１＿ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにすることができる。この際、前記コンボリューションレイヤの前記多重コンボリューション演算によって前記統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることができる。

次に、前記テスティング装置２００は、前記コンボリューションレイヤ２２２をもって、前記第１統合テストイメージに前記コンボリューション演算を適用することにより、少なくとも一つの第１テスト用統合特徴マップを出力させることができる。この際、前記コンボリューションレイヤ２２２は、単一のコンボリューションレイヤでもあり得、多数のコンボリューションレイヤでもあり得る。

次に、前記テスト装置２００は、前記ＲＰＮ２２３をもって、前記第１テスト用統合特徴マップを利用して、前記第１統合テストイメージに含まれた前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージ内に位置する前記テスト用物体に対応する一つ以上の第１＿１テスト用物体プロポーザルないし一つ以上の第１＿ｎテスト用物体プロポーザルを出力させることができる。

この際、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルそれぞれは、前記テスト用物体それぞれ、つまり、タグ付けされた領域に対応する位置情報と、前記タグ付けされた領域が物体であるか否かに関する情報を有する各テスト用プロポーザルボックスに関する情報とを含むことができる。

次に、前記テスティング装置２００は、プーリングレイヤ２２４をもって、前記第１テスト用統合特徴マップ上で、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み統合特徴マップを出力させ、前記ＦＣレイヤ２２５をもって、前記第１テスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１＿１テスト用物体検出情報ないし第１＿ｎテスト用物体検出情報を出力させることができる。

この際、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報は、テスト用バウンディングボックスに関する情報（すなわち、前記テスト用物体それぞれに関する位置情報）及び前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対応する前記テスト用物体それぞれに関するクラス情報を含むことができる。

その後、前記テスティング装置２００は、（ｉ）前記ターゲット物体統合ネットワーク２２６をもって、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを統合して第１テスト用統合物体プロポーザルを生成するようにし、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報を統合して第１テスト用統合物体検出情報を生成するようにする。ここで、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対する情報は、前記テストビデオ内の前記現在のフレームである前記第１フレームに対応するように変換され得る。

一例として、図５を参照すれば、前記第１＿１テスト用加工イメージＭＩ１及び前記第１＿２テスト用加工イメージＭＩ２上に少なくとも一つのテスト用特定同一物体が位置し、前記第１＿１テスト用加工イメージＭＩ１上の前記第１＿１テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１＿１テスト用特定物体プロポーザルＰＢ１とし、前記第１＿２テスト用加工イメージＭＩ２上で、前記第１＿２テスト用物体プロポーザルの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１＿２テスト用特定物体プロポーザルＰＢ２であるとする場合、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２との間のテスト用ＩＯＵが、第１閾値以上になるかを判断するようにする。その後、前記テスト用ＩＯＵが前記第１閾値未満と判断されれば、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２との間のテスト用調整ＩＯＵが算出されるようにする。

この際、前記テスト用調整ＩＯＵは、前記第１＿２テスト用加工イメージＭＩ２上で前記第１＿１テスト用特定物体プロポーザルＰＢ１に対応する領域、すなわち、交差領域ＰＢ１，ＭＩ２と、前記第１＿１テスト用加工イメージＭＩ１上で前記第１＿２テスト用特定物体プロポーザルＰＢ２に対応する領域、すなわち、交差領域ＰＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記テスト用調整ＩＯＵが前記第２閾値以上と判断されれば、前記テスティング装置２００は、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２との中から、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストビデオの現在フレームである前記第１テスト用フレーム上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成する。

しかし、前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２との間の前記テスト用ＩＯＵが前記第１閾値未満であり、これら間の前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２とがそれぞれ異なる物体に対応するものと判断する。

つまり、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２との間の前記ＩＯＵが前記第１閾値以上であると判断されれば、前記テスティング装置は、前記第１＿１テスト用特定物体プロポーザルＰＢ１と、前記第１＿２テスト用特定物体プロポーザルＰＢ２との中から（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージＭＩ１及びＭＩ２上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応する前記テスト用特定統合物体プロポーザルとして生成する。

また、図５を参照すれば、前記第１＿１テスト用加工イメージＭＩ１及び前記第１＿２テスト用加工イメージＭＩ２上に少なくとも一つのテスト用特定同一物体が位置し、前記第１＿１テスト用加工イメージＭＩ１上で、前記第１＿１テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１＿１テスト用特定物体バウンディングボックスＢＢ１とし、前記第１＿２テスト用加工イメージＭＩ２上で、前記第１＿２テスト用物体検出情報に含まれたテスト用物体バウンディングボックスの中の、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１＿２テスト用特定物体バウンディングボックスＢＢ２とした場合、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２との間の前記テスト用ＩＯＵが、前記第１閾値以上になるかを判断するようにする。この際、前記テスト用物体プロポーザル間のテスト用ＩＯＵ判断に利用された前記第１閾値と、前記テスト用物体バウンディングボックス間のテスト用ＩＯＵ判断に利用された前記第１閾値とは、同じこともあり得、同じくないこともあり得る。その後、前記テスト用バウンディングボックス間の前記テスト用ＩＯＵが前記第１閾値未満と判断されれば、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２との間のテスト用調整ＩＯＵが算出される。

この際、前記テスト用調整ＩＯＵは、前記第１＿２テスト用加工イメージＭＩ２上で前記第１＿１テスト用特定物体バウンディングボックスＢＢ１に対応する領域、すなわち、交差領域ＢＢ１，ＭＩ２と、前記第１＿１テスト用加工イメージＭＩ１上で前記第１＿２テスト用特定物体バウンディングボックスＢＢ２に対応する領域、すなわち、交差領域ＢＢ２，ＭＩ１とを参照して算出されたＩＯＵである。

そして、前記テスト用調整ＩＯＵが前記第２閾値以上と判断されれば、前記テスティング装置２００は、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２との中から、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記テストビデオの現在フレームである前記第１テスト用フレーム上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択させることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成する。この際、前記テスト用物体プロポーザル間のテスト用ＩＯＵ判断に利用された前記第２閾値と、前記テスト用物体バウンディングボックス間のテスト用ＩＯＵ判断に利用された前記第２閾値とは、同じこともあり得、同じくないこともあり得る。

しかし、前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２とが、それぞれ異なるテスト用物体に対応すると判断する。つまり、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２との間の前記テスト用ＩＯＵが前記第１閾値未満であり、これらの間の前記テスト用調整ＩＯＵが前記第２閾値未満と判断されれば、前記テスティング装置２００は、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２とがそれぞれ異なるテスト用物体に対応するものと判断する。

一方、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２との間の前記テスト用ＩＯＵが前記第１閾値未満であると判断されれば、前記テスティング装置は、前記第１＿１テスト用特定物体バウンディングボックスＢＢ１と、前記第１＿２テスト用特定物体バウンディングボックスＢＢ２との中から（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか（ｉｉ）それぞれの前記テスト用加工イメージＭＩ１及びＭＩ２上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応する前記テスト用特定統合物体検出情報として生成する。

次に、前記テスティング装置２００は、前記ターゲット物体予測ネットワーク２２７をもって、前記第１＿１テスト用加工イメージないし前記１＿ｎテスト用加工イメージ上の前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを参照して、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージ上で前記テスト用ターゲット物体が位置するものと予測される領域に対応する第１テスト用ターゲット領域を探すようにする。

その後、前記テスティング装置２００は、前記ターゲット領域予測ネットワーク２２１をもって、前記テストビデオの前記テスト用第１フレームの次のフレームであるテスト用第２フレーム上で、前記第１テスト用ターゲット領域が位置するものと予測される、少なくとも一つの領域に対応する第２テスト用予測ターゲット領域を探すようにする。

その後、前記テスティング装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第２テスト用フレームに対応する第２イメージピラミッドに含まれた第２＿１テストイメージないし第２＿ｎテストイメージそれぞれにおいて、第２テスト用予測ターゲット領域にそれぞれ対応する第２＿１テスト用加工イメージないし第２＿ｎテスト用加工イメージを生成するようにし、前記第２＿１テスト用加工イメージないし前記第２＿ｎテスト用加工イメージをコンカチネートした第２統合トレーニングイメージを生成するようにし、前記のような過程を繰り返し、テストビデオ上での前記ターゲット物体を効果的に検出し得るようになる。

つまり、前記テスティング装置２００は、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワーク２２７をもって、第ｋ−１統合テストイメージ上の第（ｋ−１）＿１テスト物体プロポーザルないし第（ｋ−１）＿ｎテスト用物体プロポーザルを参照して、第ｋ−１テスト用フレーム上で前記テスト用ターゲット物体が位置するものと予測される第ｋ−１テスト用ターゲット領域を探すようにし、（ｉｉ）前記ターゲット領域予測ネットワーク２２１をもって、前記第ｋテスト用フレーム上で前記第ｋ−１テスト用ターゲット領域が位置するものと予測される一つ以上の領域に対応する第ｋテスト用予測ターゲット領域を探すようにするプロセスを遂行するか、他の装置をもって遂行するよう支援し得る。そして、前記テスティング装置２００は、前記イメージ加工ネットワーク２１１をもって、前記第ｋテスト用フレームに対応する第ｋテスト用イメージピラミッド内に含まれた第ｋ＿１テストイメージないし第ｋ＿ｎテストイメージそれぞれから、前記ｋテスト用予測ターゲット領域にそれぞれ対応する、第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージを生成するようにし、前記第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージをコンカチネートした第ｋ統合テスト用イメージを出力するようにする。その後、前記テスティング装置２００は、（ｉ）前記コンボリューションレイヤ２２２をもって、前記コンボリューション演算を前記第ｋテストイメージに適用することにより、第ｋテスト統合特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮ２２３をもって、前記第ｋテスト用特徴マップを利用して、前記第ｋ統合テストイメージに含まれた前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第ｋ＿１テスト用物体プロポーザルないし第ｋ＿ｎテスト用物体プロポーザルを出力するようにし、（ｉｉｉ）前記プーリングレイヤ２２４をもって、前記第ｋテスト用統合特徴マップ上で、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルに対応する各領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み統合特徴マップを出力するようにし、（ｉｖ）前記ＦＣレイヤ２２５をもって、前記第ｋテスト用プーリング済み統合特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第ｋ＿１テスト用物体検出情報ないし第ｋ＿ｎテスト用物体検出情報を出力するようにする。その後、前記テスティング装置２００は、前記ターゲット物体統合ネットワーク２２６をもって、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルを統合して第ｋテスト用統合物体プロポーザルを生成するようにし、前記第ｋ＿１テスト用物体検出情報ないし前記第ｋ＿ｎテスト用物体検出情報を統合して第ｋテスト用統合物体検出情報を生成するようにプロセスを遂行する。

前記のような方法により、前記テストビデオのそれぞれのフレームに位置するサイズが様々な物体、特にサイズが小さく、遠距離に位置した前記物体を効率的に検出し得るようになり、また、前記予測されたターゲット領域に対応する領域のみを利用することで演算量を減らし得、これによって前記ＣＮＮ基盤の前記物体検出の演算時間を減らし得るようになる。

また、前記では、前記テストビデオの前記それぞれのフレーム上にターゲット物体が一つである場合を想定して説明したが、前記テストビデオのそれぞれの前記フレーム上に物体が多数ある場合でも、前記のような方法により前記テストビデオのそれぞれの前記フレーム上に前記それぞれの物体に対応するそれぞれのターゲット領域を利用して、前記それぞれの物体の検出が可能である。

前記ＣＮＮは、ターゲット物体予測ネットワーク及び物体統合ネットワークを利用して、重要業績評価指標（ＫＰＩ：ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｅｘ）のようなユーザーの要求事項に合わせて調整可能である。また、前記ＣＮＮは、前記重要業績評価指標に係る解像度や焦点距離が変化し、物体のスケールが変化するに伴い再設計され得る。前記方法は、２Ｄバウンディングボックスの正確度が向上し、多重カメラ、サラウンドビューモニタリング（ＳｕｒｒｏｕｎｄＶｉｅｗＭｏｎｉｔｏｒｉｎｇ）などに有用に遂行され得る。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習する方法において、
（ａ）少なくとも一つのトレーニングビデオが取得されると、学習装置が、（ｉ）イメージ加工ネットワークをもって、前記トレーニングビデオの現在フレームである第１フレームに対応する第１イメージピラミッドに含まれた第１＿１イメージないし第１＿ｎイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第１予測ターゲット領域にそれぞれ対応する、第１＿１加工イメージないし第１＿ｎ加工イメージを生成するようにし、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージそれぞれに位置する一つ以上の物体に対応する第１＿１物体プロポーザルないし第１＿ｎ物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１特徴マップ上で、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに一つ以上のＦＣ演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力させ、（ｉｉｉ）ターゲット物体統合ネットワークをもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを生成するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階；及び
（ｂ）ｋを２からｎまで増加させながら、前記学習装置が、（ｉ）ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、第ｋ−１フレーム上で、前記ターゲット物体が位置すると予測される第ｋ−１ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第ｋフレーム上で、前記第ｋ−１ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記第ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習する段階；
を含むことを特徴とする方法。
前記（ａ）段階で、
前記学習装置は、ＲＰＮロスレイヤをもって、前記第１統合物体プロポーザルの情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記（ｂ）段階で、
前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項１に記載の方法。
前記（ａ）段階で、
前記学習装置が、前記イメージ加工ネットワークをもって、第１＿１加工イメージないし前記第１＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第１＿１調整済み加工イメージないし第１＿ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）するようにし、
前記（ｂ）段階で、
前記学習装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一の大きさに調整された前記幅または前記高さ方向に第ｋ＿１調整済み加工イメージないし第ｋ＿ｎ調整済み加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）するようにすることを特徴とする請求項１に記載の方法。
前記学習装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１調整済み加工イメージないし前記第ｋ＿ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第ｋ統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを含むことを特徴とする請求項３に記載の方法。
第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が第１閾値以上になるかを判断するようにし、（Ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、（ｉ）確率値の高い特定物体プロポーザルを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項１に記載の方法。
第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、
前記学習装置は、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（Ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ＩＩ）前記調整ＩＯＵが第２閾値以上と判断されたら、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスの中から、（ｉ）確率値の高い特定物体バウンディングボックスを選択するようにするか（ｉｉ）前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記学習装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項１に記載の方法。
ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したＣＮＮ基盤の物体検出器のテスティングする方法において、
（ａ）学習装置が、（１）（ｉ）イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第１学習用フレームに対応する第１学習用イメージピラミッドに含まれた第１＿１トレーニングイメージないし第１＿ｎトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第１学習用予測ターゲット領域にそれぞれ対応する、第１＿１学習用加工イメージないし第１＿ｎ学習用加工イメージを生成するようにし、前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージをコンカチネートした第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１学習用特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１学習用特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第１＿１学習用物体プロポーザルないし第１＿ｎ学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記学習用物体に対応する第１＿１学習用物体検出情報ないし第１＿ｎ学習用物体検出情報を出力するようにし、（ｉｉｉ）ターゲット物体統合ネットワークをもって、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルを統合して第１学習用統合物体プロポーザルを生成するようにし、前記第１＿１学習用物体検出情報ないし前記第１＿ｎ学習用物体検出情報を統合して第１学習用統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び（２）ｋを２からｎまで増加させながら、（ｉ）ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１学習用物体プロポーザルないし第（ｋ−１）＿ｎ学習用物体プロポーザルを参照して、第ｋ−１学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第ｋ−１学習用ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第ｋ学習用フレーム上で、前記第ｋ−１学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ学習用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋ学習用フレームに対応する第ｋ学習用イメージピラミッド内に含まれた第ｋ＿１トレーニングイメージないし第ｋ＿ｎトレーニングイメージそれぞれから、前記第ｋ学習用予測ターゲット領域にそれぞれ対応する、第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージを生成するようにし、前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ学習用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージそれぞれに位置する前記学習用物体に対応する第ｋ＿１学習用物体プロポーザルないし第ｋ＿ｎ学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記学習用物体に対応する第ｋ＿１学習用物体検出情報ないし第ｋ＿ｎ学習用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルを統合して第ｋ学習用統合物体プロポーザルを生成するようにし、前記第ｋ＿１学習用物体検出情報ないし前記第ｋ＿ｎ学習用物体検出情報を統合して第ｋ学習用統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で；少なくとも一つのテストビデオが取得されると、テスティング装置が、（ｉ）前記イメージ加工ネットワークをもって、前記テストビデオの現在フレームである第１テスト用フレームに対応する第１テスト用イメージピラミッドに含まれた第１＿１テストイメージないし第１＿ｎテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第１テスト用予測ターゲット領域にそれぞれ対応する、第１＿１テスト用加工イメージないし第１＿ｎテスト用加工イメージを生成するようにし、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージをコンカチネートした第１統合テストイメージを生成するようにし、（ｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第１統合テストイメージに適用することで、少なくとも一つの第１テスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１統合テストイメージ内に含まれた前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第１＿１テスト用物体プロポーザルないし第１＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１＿１テスト用物体検出情報ないし第１＿ｎテスト用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを統合して第１テスト用統合物体プロポーザルを生成するようにし、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報を統合して第１テスト用統合物体検出情報を生成するようにする段階；及び
（ｂ）前記テスティング装置が、ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合テストイメージ上の第（ｋ−１）＿１テスト用物体プロポーザルないし第（ｋ−１）＿ｎテスト用物体プロポーザルを参照して、第ｋ−１テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第ｋ−１テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋテスト用フレーム上で、前記第ｋ−１テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋテスト用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋテスト用フレームに対応する第ｋテスト用イメージピラミッド内に含まれた第ｋ＿１テストイメージないし第ｋ＿ｎテストイメージそれぞれから、前記第ｋテスト用予測ターゲット領域にそれぞれ対応する、第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージを生成するようにし、前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージをコンカチネートした第ｋ統合テストイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合テストイメージに適用することで第ｋテスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋテスト用特徴マップを利用して、前記第ｋ統合テストイメージ内に含まれた前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第ｋ＿１テスト用物体プロポーザルないし第ｋ＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第ｋ＿１テスト用物体検出情報ないし第ｋ＿ｎテスト用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルを統合して第ｋテスト用統合物体プロポーザルを生成するようにし、前記第ｋ＿１テスト用物体検出情報ないし前記第ｋ＿ｎテスト用物体検出情報を統合して第ｋテスト用統合物体検出情報を生成するようにする段階；
を含むことを特徴とする方法。
前記（１）プロセスで、
前記学習装置は、少なくとも一つのＲＰＮロスレイヤをもって、前記第１学習用統合物体プロポーザルの情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記（２）プロセスで、
前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項８に記載の方法。
前記（ａ）段階で、
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第１＿１テスト用調整済み加工イメージないし第１＿ｎテスト用調整済み加工イメージをコンカチネートするようにし、
前記（ｂ）段階で、
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第ｋ＿１テスト用調整済み加工イメージないし第ｋ＿ｎテスト用調整済み加工イメージをコンカチネートすることを特徴とする請求項８に記載の方法。
前記テスティング装置が、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用調整済み加工イメージないし前記第ｋ＿ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第ｋ統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを含むことを特徴とする請求項１０に記載の方法。
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、（ｉ）確率値の高いテスト用特定物体プロポーザルを選択するようにするか（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択させることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項８に記載の方法。
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、
前記テスティング装置は、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（I）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ＩＩ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、（ｉ）確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、（ｉｉ）前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項８に記載の方法。
前記（ｂ）段階で、
前記テスティング装置は、前記ターゲット物体予測ネットワークをもって、（ｉ）テスト用特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項８に記載の方法。
ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したＣＮＮ基盤の物体検出器のパラメータを学習するための学習装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）（ｉ）イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第１フレームに対応する第１イメージピラミッドに含まれた第１＿１イメージないし第１＿ｎイメージそれぞれから、少なくとも一つのターゲット物体が位置すると推定される第１予測ターゲット領域にそれぞれ対応する、第１＿１加工イメージないし第１＿ｎ加工イメージを生成するようにし、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージをコンカチネート（ｃｏｎｃａｔｅｎａｔｅ）した第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１加工イメージないし前記第１＿ｎ加工イメージそれぞれに位置する一つ以上の物体に対応する第１＿１物体プロポーザルないし第１＿ｎ物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１特徴マップ上で、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１プーリング済み特徴マップに一つ以上のＦＣ演算を適用して、前記物体に対応する第１＿１物体検出情報ないし第１＿ｎ物体検出情報を出力させ、（ｉｉｉ）ターゲット物体統合ネットワークをもって、前記第１＿１物体プロポーザルないし前記第１＿ｎ物体プロポーザルを統合して第１統合物体プロポーザルを生成するようにし、前記第１＿１物体検出情報ないし前記第１＿ｎ物体検出情報を統合して第１統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１物体プロポーザルないし第（ｋ−１）＿ｎ物体プロポーザルを参照して、第ｋ−１フレーム上で、前記ターゲット物体が位置すると予測される第ｋ−１ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第ｋフレーム上で、前記第ｋ−１ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋフレームに対応する第ｋイメージピラミッド内に含まれた第ｋ＿１イメージないし第ｋ＿ｎイメージそれぞれから、前記第ｋ予測ターゲット領域にそれぞれ対応する、第ｋ＿１加工イメージないし第ｋ＿ｎ加工イメージを生成するようにし、前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージそれぞれに位置する前記物体に対応する第ｋ＿１物体プロポーザルないし第ｋ＿ｎ物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ特徴マップ上で、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋプーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋプーリング済み特徴マップに前記ＦＣ演算を適用して、前記物体に対応する第ｋ＿１物体検出情報ないし第ｋ＿ｎ物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルを統合して第ｋ統合物体プロポーザルを生成するようにし、前記第ｋ＿１物体検出情報ないし前記第ｋ＿ｎ物体検出情報を統合して第ｋ統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記（Ｉ）プロセスで、
前記プロセッサは、少なくとも一つのＲＰＮロスレイヤをもって、前記第１統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ＲＰＮロスレイヤをもって、前記第ｋ統合物体プロポーザル情報と、これに対応するＧＴとを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項１５に記載の学習装置。
前記（Ｉ）プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１＿１加工イメージないし前記第１＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第１＿１調整済み加工イメージないし第１＿ｎ調整済み加工イメージをコンカチネートするようにし、
前記（ＩＩ）プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１加工イメージないし前記第ｋ＿ｎ加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第ｋ＿１調整済み加工イメージないし第ｋ＿ｎ調整済み加工イメージをコンカチネートするようにすることを特徴とする請求項１５に記載の学習装置。
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１調整済み加工イメージないし前記第ｋ＿ｎ調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つの調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第ｋ統合トレーニングイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項１７に記載の学習装置。
第１特定加工イメージ及び第２特定加工イメージ上にそれぞれ少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第１特定物体プロポーザルとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体プロポーザルを第２特定物体プロポーザルとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの間のＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体プロポーザルに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体プロポーザルに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されると、前記第１特定物体プロポーザルと、前記第２特定物体プロポーザルとの中から、確率値の高い特定物体プロポーザルを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体プロポーザルを選択するようにすることにより、前記選択された特定物体プロポーザルを前記特定同一物体に対応する特定統合物体プロポーザルとして生成することを特徴とする請求項１５に記載の学習装置。
第１特定加工イメージ及び第２特定加工イメージ上に少なくとも一つの特定同一物体が位置し、前記第１特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第１特定物体バウンディングボックスとし、前記第２特定加工イメージ上で、前記特定同一物体に対応する少なくとも一つの物体バウンディングボックスを第２特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの間のＩＯＵが、第１閾値以上になるか否かを判断するようにし、（ｉ）前記ＩＯＵが、前記第１閾値未満と判断されれば、前記第２特定加工イメージ上で前記第１特定物体バウンディングボックスに対応する領域と、前記第１特定加工イメージ上で前記第２特定物体バウンディングボックスに対応する領域との間の調整ＩＯＵを算出し、（ｉｉ）前記調整ＩＯＵが第２閾値以上と判断されれば、前記第１特定物体バウンディングボックスと、前記第２特定物体バウンディングボックスとの中から、確率値の高い特定物体バウンディングボックスを選択するようにするか、前記トレーニングイメージ上で演算される面積の大きい特定物体バウンディングボックスを選択するようにすることにより、前記選択された特定物体バウンディングボックスを前記特定同一物体に対応する特定統合物体検出情報として生成することを特徴とする請求項１５に記載の学習装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１物体プロポーザルないし前記第ｋ＿ｎ物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応する特定物体プロポーザルの個数を示す少なくとも一つ以上のヒストグラムマップを生成するようにし、前記グリッドの各セル内にそれに対応する前記特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つの特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項１５に記載の学習装置。
ターゲット物体統合ネットワークと、ターゲット領域予測ネットワークとを利用したＣＮＮ基盤の物体検出器をテスティングするためのテスティング装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
（１）学習装置が、（ｉ）イメージ加工ネットワークをもって、少なくとも一つのトレーニングビデオの現在フレームである第１学習用フレームに対応する第１学習用イメージピラミッドに含まれた第１＿１トレーニングイメージないし第１＿ｎトレーニングイメージそれぞれから、少なくとも一つの学習用ターゲット物体が位置すると推定される第１学習用予測ターゲット領域にそれぞれ対応する、第１＿１学習用加工イメージないし第１＿ｎ学習用加工イメージを生成するようにし、前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージをコンカチネートした第１統合トレーニングイメージを生成するようにし、（ｉｉ）一つ以上のコンボリューションレイヤをもって、一つ以上のコンボリューション演算を前記第１統合トレーニングイメージに適用することで、少なくとも一つの第１学習用特徴マップを出力させ、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記第１学習用特徴マップを利用して、前記第１統合トレーニングイメージに含まれた前記第１＿１学習用加工イメージないし前記第１＿ｎ学習用加工イメージそれぞれに位置する一つ以上の学習用物体に対応する第１＿１学習用物体プロポーザルないし第１＿ｎ学習用物体プロポーザルを出力させ、プーリングレイヤをもって、前記第１学習用特徴マップ上で、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に一つ以上のプーリング演算を適用して、少なくとも一つの第１学習用プーリング済み特徴マップを出力させ、ＦＣ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）レイヤをもって、前記第１学習用プーリング済み特徴マップに少なくとも一つのＦＣ演算を適用して、前記学習用物体に対応する第１＿１学習用物体検出情報ないし第１＿ｎ学習用物体検出情報を出力させ、（ｉｉｉ）ターゲット物体統合ネットワークをもって、前記第１＿１学習用物体プロポーザルないし前記第１＿ｎ学習用物体プロポーザルを統合して第１学習用統合物体プロポーザルを生成するようにし、前記第１＿１学習用物体検出情報ないし前記第１＿ｎ学習用物体検出情報を統合して第１学習用統合物体検出情報を生成するようにし、少なくとも一つのＦＣロスレイヤをもって、前記第１学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第１ＦＣロスを生成するようにすることで、前記第１ＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセス、及び（２）ｋを２からｎまで増加させながら、（ｉ）ターゲット物体予測ネットワークをもって、第ｋ−１統合トレーニングイメージ上の第（ｋ−１）＿１学習用物体プロポーザルないし第（ｋ−１）＿ｎ学習用物体プロポーザルを参照して、第ｋ−１学習用フレーム上で、前記学習用ターゲット物体が位置すると予測される第ｋ−１学習用ターゲット領域を探すようにし、ターゲット領域予測ネットワークをもって、第ｋ学習用フレーム上で、前記第ｋ−１学習用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋ学習用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋ学習用フレームに対応する第ｋ学習用イメージピラミッド内に含まれた第ｋ＿１トレーニングイメージないし第ｋ＿ｎトレーニングイメージそれぞれから、前記第ｋ学習用予測ターゲット領域にそれぞれ対応する、第ｋ＿１学習用加工イメージないし第ｋ＿ｎ学習用加工イメージを生成するようにし、前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージをコンカチネートした第ｋ統合トレーニングイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合トレーニングイメージに適用することで、第ｋ学習用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋ学習用特徴マップを利用して、前記第ｋ統合トレーニングイメージ内に含まれた前記第ｋ＿１学習用加工イメージないし前記第ｋ＿ｎ学習用加工イメージそれぞれに位置する前記学習用物体に対応する第ｋ＿１学習用物体プロポーザルないし第ｋ＿ｎ学習用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋ学習用特徴マップ上で、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第ｋ学習用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第ｋ学習用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記学習用物体に対応する第ｋ＿１学習用物体検出情報ないし第ｋ＿ｎ学習用物体検出情報を出力させ、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１学習用物体プロポーザルないし前記第ｋ＿ｎ学習用物体プロポーザルを統合して第ｋ学習用統合物体プロポーザルを生成するようにし、前記第ｋ＿１学習用物体検出情報ないし前記第ｋ＿ｎ学習用物体検出情報を統合して第ｋ学習用統合物体検出情報を生成するようにし、前記ＦＣロスレイヤをもって、前記第ｋ学習用統合物体検出情報及びこれに対応するＧＴを参照して一つ以上の第ｋＦＣロスを生成するようにすることで、前記第ｋＦＣロスを利用したバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）によって、前記ＦＣレイヤと、前記コンボリューションレイヤのパラメータとの中の少なくとも一部を学習するプロセスを遂行した状態で；（Ｉ）（ｉ）前記イメージ加工ネットワークをもって、少なくとも一つのテストビデオの現在フレームである第１テスト用フレームに対応する第１テスト用イメージピラミッドに含まれた第１＿１テストイメージないし第１＿ｎテストイメージそれぞれから、少なくとも一つのテスト用ターゲット物体が位置すると推定される第１テスト用予測ターゲット領域にそれぞれ対応する、第１＿１テスト用加工イメージないし第１＿ｎテスト用加工イメージを生成するようにし、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージをコンカチネートした第１統合テストイメージを生成するようにし、（ｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第１統合テストイメージに適用することで、少なくとも一つの第１テスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第１テスト用特徴マップを利用して、前記第１統合テストイメージ内に含まれた前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージそれぞれに位置する一つ以上のテスト用物体に対応する第１＿１テスト用物体プロポーザルないし第１＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第１テスト用特徴マップ上で、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルに対応する一つ以上の領域に前記プーリング演算を適用して、少なくとも一つの第１テスト用プーリング済み特徴マップを出力させ、前記ＦＣレイヤをもって、前記第１テスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第１＿１テスト用物体検出情報ないし第１＿ｎテスト用物体検出情報を出力させ、（ｉｉｉ）前記ターゲット物体統合ネットワークをもって、前記第１＿１テスト用物体プロポーザルないし前記第１＿ｎテスト用物体プロポーザルを統合して第１テスト用統合物体プロポーザルを生成するようにし、前記第１＿１テスト用物体検出情報ないし前記第１＿ｎテスト用物体検出情報を統合して第１テスト用統合物体検出情報を生成するようにするプロセス、及び（ＩＩ）ｋを２からｎまで増加させながら、（ｉ）前記ターゲット物体予測ネットワークをもって、第ｋ−１統合テストイメージ上の第（ｋ−１）＿１テスト用物体プロポーザルないし第（ｋ−１）＿ｎテスト用物体プロポーザルを参照して、第ｋ−１テスト用フレーム上で、前記テスト用ターゲット物体が位置すると予測される第ｋ−１テスト用ターゲット領域を探すようにし、前記ターゲット領域予測ネットワークをもって、第ｋテスト用フレーム上で、前記第ｋ−１テスト用ターゲット領域が位置すると予測される一つ以上の領域に対応する第ｋテスト用予測ターゲット領域を探すようにし、（ｉｉ）前記イメージ加工ネットワークをもって、前記第ｋテスト用フレームに対応する第ｋテスト用イメージピラミッド内に含まれた第ｋ＿１テストイメージないし第ｋ＿ｎテストイメージそれぞれから、前記第ｋテスト用予測ターゲット領域にそれぞれ対応する、第ｋ＿１テスト用加工イメージないし第ｋ＿ｎテスト用加工イメージを生成するようにし、前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージをコンカチネートした第ｋ統合テストイメージを出力するようにし、（ｉｉｉ）前記コンボリューションレイヤをもって、前記コンボリューション演算を前記第ｋ統合テストイメージに適用することで第ｋテスト用特徴マップを出力させ、前記ＲＰＮをもって、前記第ｋテスト用特徴マップを利用して、前記第ｋ統合テストイメージ内に含まれた前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージそれぞれに位置する前記テスト用物体に対応する第ｋ＿１テスト用物体プロポーザルないし第ｋ＿ｎテスト用物体プロポーザルを出力させ、前記プーリングレイヤをもって、前記第ｋテスト用特徴マップ上で、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルそれぞれに対応するそれぞれの領域に前記プーリング演算を適用して、少なくとも一つの第ｋテスト用プーリング済み特徴マップを出力するようにし、前記ＦＣレイヤをもって、前記第ｋテスト用プーリング済み特徴マップに前記ＦＣ演算を適用して、前記テスト用物体に対応する第ｋ＿１テスト用物体検出情報ないし第ｋ＿ｎテスト用物体検出情報を出力するようにし、（ｉｖ）前記ターゲット物体統合ネットワークをもって、前記第ｋ＿１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルを統合して第ｋテスト用統合物体プロポーザルを生成するようにし、前記第ｋ＿１テスト用物体検出情報ないし前記第ｋ＿ｎテスト用物体検出情報を統合して第ｋテスト用統合物体検出情報を生成するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスティング装置。
前記（１）プロセスで、
前記学習装置は、少なくとも一つのＲＰＮロスレイヤをもって、前記第１学習用統合物体プロポーザルの情報及びこれに対応するＧＴを参照して一つ以上の第１ＲＰＮロスを取得するようにすることで、前記第１ＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮのパラメータの中の少なくとも一部を調整するようにし、
前記（２）プロセスで、
前記学習装置は、前記ＲＰＮロスレイヤをもって、前記第ｋ学習用統合物体プロポーザル情報及びこれに対応するＧＴを参照して一つ以上の第ｋＲＰＮロスを取得するようにすることで、前記第ｋＲＰＮロスを利用したバックプロパゲーションによって前記ＲＰＮの前記パラメータの中の少なくとも一部を調整することを特徴とする請求項２２に記載のテスティング装置。
前記（Ｉ）プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第１＿１テスト用加工イメージないし前記第１＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第１＿１テスト用調整済み加工イメージないし第１＿ｎテスト用調整済み加工イメージをコンカチネートするようにし、
前記（ＩＩ）プロセスで、
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用加工イメージないし前記第ｋ＿ｎテスト用加工イメージの幅と高さのうち少なくとも一つを同一に調整した後、同一に調整された前記幅または前記高さ方向に第ｋ＿１テスト用調整済み加工イメージないし第ｋ＿ｎテスト用調整済み加工イメージをコンカチネートすることを特徴とする請求項２２に記載のテスティング装置。
前記プロセッサが、前記イメージ加工ネットワークをもって、前記第ｋ＿１テスト用調整済み加工イメージないし前記第ｋ＿ｎテスト用調整済み加工イメージのうち、コンカチネートされた隣接するそれぞれの二つのテスト用調整済み加工イメージから構成されるそれぞれのペアの間にそれぞれ少なくとも一つのゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）領域を追加するようにし、
前記コンボリューションレイヤの多重コンボリューション演算によって前記第ｋ統合テストイメージが１／Ｓに縮小され、前記コンボリューションレイヤそれぞれのカーネルそれぞれの最大サイズをＫ×Ｋとする場合、前記ゼロパディング領域の幅が

になるようにすることを特徴とする請求項２４に記載のテスティング装置。
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第１テスト用特定物体プロポーザルとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体プロポーザルを第２テスト用特定物体プロポーザルとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの間のテスト用ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）が、第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されると、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体プロポーザルに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体プロポーザルに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体プロポーザルと、前記第２テスト用特定物体プロポーザルとの中から、確率値の高いテスト用特定物体プロポーザルを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体プロポーザルを選択するようにすることにより、前記選択されたテスト用特定物体プロポーザルを前記テスト用特定同一物体に対応するテスト用特定統合物体プロポーザルとして生成することを特徴とする請求項２２に記載のテスティング装置。
第１テスト用特定加工イメージ及び第２テスト用特定加工イメージ上にそれぞれ少なくとも一つのテスト用特定同一物体が位置し、前記第１テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第１テスト用特定物体バウンディングボックスとし、前記第２テスト用特定加工イメージ上で、前記テスト用特定同一物体に対応する少なくとも一つのテスト用物体バウンディングボックスを第２テスト用特定物体バウンディングボックスとした場合、
前記プロセッサは、前記ターゲット物体統合ネットワークをもって、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの間のテスト用ＩＯＵが第１閾値以上になるかを判断するようにし、（ｉ）前記テスト用ＩＯＵが、前記第１閾値未満と判断されれば、前記第２テスト用特定加工イメージ上で前記第１テスト用特定物体バウンディングボックスに対応する領域と、前記第１テスト用特定加工イメージ上で前記第２テスト用特定物体バウンディングボックスに対応する領域との間のテスト用調整ＩＯＵを算出し、（ｉｉ）前記テスト用調整ＩＯＵが第２閾値以上と判断されれば、前記第１テスト用特定物体バウンディングボックスと、前記第２テスト用特定物体バウンディングボックスとの中から、確率値の高いテスト用特定物体バウンディングボックスを選択するようにするか、前記テストイメージ上で演算される面積の大きいテスト用特定物体バウンディングボックスを選択するようにすることにより、前記選択されたテスト用特定物体バウンディングボックスを前記テスト用特定同一物体に対応するテスト用特定統合物体検出情報として生成することを特徴とする請求項２２に記載のテスティング装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記ターゲット物体予測ネットワークをもって、（ｉ）テスト用特定加工イメージをＭｘＮグリッドに区分するようにし、（ｉｉ）前記第ｋ−１テスト用物体プロポーザルないし前記第ｋ＿ｎテスト用物体プロポーザルのうち、前記グリッドの各セルごとにそれぞれ対応するテスト用特定物体プロポーザルの個数を示す少なくとも一つ以上のテスト用ヒストグラムマップを生成するようにし、前記グリッドの各セル内に、それに対応する前記テスト用特定物体プロポーザルそれぞれの全体領域または分割領域が存在し、（ｉｉｉ）テスト用ムービングウィンドウの中の少なくとも一つの領域を利用して、少なくとも一つのテスト用特定ターゲット領域を決定するようにし、前記少なくとも一つの領域は、前記テスト用ムービングウィンドウの位置を変更して占有されるすべての領域のうち、前記テスト用ヒストグラムマップの合計が最も大きい値を有する領域であることを特徴とする請求項２２に記載のテスティング装置。