JP6856904B2

JP6856904B2 - 物体のスケールに応じてモード転換が可能なｃｎｎ基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置

Info

Publication number: JP6856904B2
Application number: JP2019239316A
Authority: JP
Inventors: − ヒョンキム、ケイ; キム、ヨンジュン; キム、インスー; − キョンキム、ハク; ナム、ウヒョン; ブー、ソッフン; ソン、ミュンチュル; ヨー、ドンフン; リュー、ウジュ; チャン、テウン; ジョン、キュンチョン; チェ、ホンモ; チョウ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-25
Filing date: 2019-12-27
Publication date: 2021-04-14
Anticipated expiration: 2039-12-27
Also published as: JP2020119520A; CN111488786B; KR20200092848A; EP3686807A2; CN111488786A; US10402686B1; EP3686807A3; KR102320995B1

Description

本発明は、物体のスケールに応じてモード転換が可能なＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用した利用したテスト方法及びテスト装置に関し、より詳細には、前記ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の前記物体検出器を学習する方法において、（ａ）少なくとも一つの物体含むトレーニングイメージが入力されると、学習装置が、少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにする段階；（ｂ）前記学習装置が、（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記特徴マップ上で前記ｋ個のＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記第２特徴ベクトルをそれぞれ利用して、前記ｋ個のＲＯＩそれぞれに対応するそれぞれのクラス（Ｃｌａｓｓ）情報と、それぞれのリグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにする段階；及び（ｃ）前記学習装置が、第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個のＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習する段階；を含む学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置に関する。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）において、コンボリューションニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮまたはＣｏｎｖＮｅｔ）は、視覚的イメージ分析に成功して適用されてきたディープフィードフォワード人工ニューラルネットワーク（ＤｅｅｐＦｅｅｄ−ＦｏｒｗａｒｄＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のクラス（Ｃｌａｓｓ）の一つである。

図１は、従来の技術に係るＣＮＮを利用した学習プロセスを示した図面である。

図１は、学習装置が予測したバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ）を、これに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）のバウンディングボックスと比較するプロセスを示した図面である。
図１を参照すれば、従来の学習装置がバウンディンボックスを予測し、この予測されたバウンディンボックスをＧＴのバウンディンボックスと比較して、少なくとも一つのロス値を取得する。ここで、ロス値は、予測されたバウンディングボックスと、ＧＴのバウンディングボックスとの間の差異値を意味する。例えば、図１でロス値は、ｄｘ_ｃ，ｄｙ_ｃ，ｄｗ，ｄｈを含み得る。

まず、図１の学習装置は、ＲＧＢイメージを取得して、これをコンボリューションレイヤに入力される。ＲＧＢイメージがコンボリューションレイヤを通過した後、ＲＧＢイメージの幅と高さは縮小されるが、チャネル数は増加するように特徴マップが生成される。
図１の学習装置は、特徴マップをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に入力してプロポーザルボックスを生成し、特徴マップ上のプロポーザルボックスに対応される領域に含まれたピクセルデータに対し、マックスプーリング（ＭａｘＰｏｏｌｉｎｇ）またはアベレージプーリング（ＡｖｅｒａｇｅＰｏｏｌｉｎｇ）演算のいずれかを適用してプーリング済み特徴マップを生成し得る。ここで、マックスプーリングは、それぞれの細部領域ごとにこれに対応するプロポーザルボックス内の細部領域それぞれから最も大きな値を細部領域ごとに代表値としてそれぞれ選定する方法であり、アベレージプーリングは、それぞれの詳細領域ごとにこれに対応するプロポーザルボックス内の細部領域それぞれに対するそれぞれの平均値をそれぞれの代表値として算出する方法である。

次に、図１の学習装置は、プーリング済み特徴マップをＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）に入力する。その際、学習装置は、FCレイヤをもって、分類演算によって前記ＲＧＢイメージ上の物体の種類が何かを確認するようにし得る。プーリング済み特徴マップは、「特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）」と呼ぶこともできる。

また、入力されたＲＧＢイメージ上の少なくとも一つのバウンディングボックスは、ＦＣレイヤ及びロス値によって予測され、前記ロスは、予測されたバウンディングボックスをこれに対応するＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）のバウンディングボックスと比較して取得される。ここで、ＧＴのバウンディングボックスは、イメージ上の物体を正確に含むバウンディングボックスとして、一般的には人が直接生成できる。

最後に、図１の学習装置は、バックプロパゲーションを遂行しながらロス値を減少させるために、ＦＣレイヤの少なくとも一つのパラメータと、コンボリューションレイヤとの中の少なくとも一つのパラメータを調整し得る。ＣＮＮのパラメータが調整された後、テストイメージ上の新しい物体に対応する新しいバウンディングボックスが予測され得る。

ただし、コンボリューションレイヤから出力される特徴マップ上でＲＯＩに対応する領域が単一スケール（ＳｉｎｇｌｅＳｃａｌｅ）にプーリングされると、単一スケールにプーリングされた特徴マップのみを利用しては、情報を効率的に表現することが限られる。従って、物体をより正確に検出するために多くの特徴（Ｆｅａｔｕｒｅ）を利用しなければならず、これによって物体検出のための演算数が多くなるだけでなく、性能が低下するという短所があった。

従って、本発明は、互いに異なるスケールを有するプーリングレイヤそれぞれをもって、プーリング演算を遂行するようにして演算数を減らし得る学習方法を提案したい。

本発明は、前述した問題点を解決することを目的とする。
また、本発明は、互いに異なるスケールを有するプーリングレイヤそれぞれをもって、それぞれのプーリング演算を遂行するようにして、演算量を減らす学習方法及び学習装置、これを利用したテスト方法及びテスト装置を提供することを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記の通りである。

本発明の一態様によれば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器を学習する方法において、（ａ）少なくとも一つの物体含むトレーニングイメージが入力されると、学習装置が、少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにする段階；（ｂ）前記学習装置が、（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記特徴マップ上で前記ｋ個のＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記第２特徴ベクトルをそれぞれ利用して、前記ｋ個のＲＯＩそれぞれに対応するそれぞれのクラス（Ｃｌａｓｓ）情報と、それぞれのリグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにする段階；及び（ｃ）前記学習装置が、第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個のＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションを通じて、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習するようにする段階；を含むことを特徴とする。

一例として、前記ｋ個のＲＯＩは、前記ＲＰＮによって予め設定されたＲＯＩ候補の中から選択されたものであり、前記（ａ）段階の後に、前記学習装置は、第２ロスレイヤをもって、前記ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする。

一例として、前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、前記（ｂ）段階で、前記学習装置は、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにして第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記第３特徴ベクトルを利用して、前記ｋ個のＲＯＩに対応するそれぞれの前記クラス情報と、それぞれの前記リグレッション情報とを出力するようにすることを特徴とする。

一例として、前記（ｃ）段階で、前記学習装置は、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して、前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする。

一例として、前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第１ＦＣレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第１ＦＣレイヤの寄与度に対する情報を参考にして決定されることを特徴とする。

一例として、前記学習装置は、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとに前記第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする。

一例として、前記学習装置は、それぞれの前記第１ＦＣレイヤから出力される前記第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする。

本発明の他の態様によれば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器をテストする方法において、（ａ）学習装置が、（１）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの学習用特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記学習用特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにし、（２）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記学習用特徴マップ上で前記ｋ個の学習用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個の学習用ＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記学習用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ利用して、前記ｋ個の学習用ＲＯＩそれぞれに対応するそれぞれの学習用クラス（Ｃｌａｓｓ）情報と、それぞれの学習用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにし、（３）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記学習用クラス情報と、それぞれの前記学習用リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個の学習用ＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習した状態で、テスト装置が、（ｉ）前記コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮにをもって前記テスト用特徴マップを用いて前記テストイメージ内のｍ個のテスト用ＲＯＩを出力させる段階；及び（ｂ）前記テスト装置が、（ｉ）互いに異なるプーリングスケールを有する前記プーリングレイヤそれぞれをもって、該当スケールごとに前記テスト用特徴マップ上で前記ｍ個のテスト用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｍ個のテスト用ＲＯＩそれぞれに対応するｍ個のテスト用第１特徴ベクトルそれぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの前記第１ＦＣレイヤをもって、該当スケールごとにｍ個の前記テスト用第１特徴ベクトルをそれぞれ利用して、該当スケールごとにｍ個のテスト用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）前記第２ＦＣレイヤをもって、該当スケールごとにｍ個の前記テスト用第２特徴ベクトルをそれぞれ利用して前記ｍ個のテスト用ＲＯＩそれぞれに対応するそれぞれのテスト用クラス情報と、それぞれのテスト用リグレッション情報とを出力するようにする段階；を含むことを特徴とする。

一例として、前記ｋ個の学習用ＲＯＩは、前記ＲＰＮにより予め設定された学習用ＲＯＩ候補の中から選択されたものであり、前記（１）プロセスの後、前記学習装置は、第２ロスレイヤをもって、前記学習用ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする。

一例として、前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、前記（ｂ）段階で、前記テスト装置は、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｍ個の前記テスト用第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにしてテスト用第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記テスト用第３特徴ベクトルを利用して前記ｍ個のテスト用ＲＯＩに対応するそれぞれの前記テスト用クラス情報と、それぞれの前記テスト用リグレッション情報とを出力するようにすることを特徴とする。

一例として、前記（３）プロセスで、前記学習装置は、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記学習用第２特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする。

一例として、前記テスト装置は、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとに前記テスト用第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする。

一例として、前記テスト装置は、それぞれの前記第１ＦＣレイヤから出力される前記テスト用第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする。

本発明のまた他の態様によれば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器を学習する学習装置において、インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、少なくとも一つの物体を含むトレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つの特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにするプロセス、（ＩＩ）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記特徴マップ上で前記ｋ個のＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記第２特徴ベクトルをそれぞれ利用して、前記ｋ個のＲＯＩそれぞれに対応されるそれぞれのクラス（Ｃｌａｓｓ）情報と、それぞれのリグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報を出力するようにするプロセス及び、（ＩＩＩ）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個のＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする。

一例として、前記ｋ個のＲＯＩは、前記ＲＰＮによって予め設定されたＲＯＩ候補の中から選択されたものであり、前記（Ｉ）プロセスの後、前記プロセッサは、第２ロスレイヤをもって、前記ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする。

一例として、前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、前記（ＩＩ）プロセスで、前記プロセッサは、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにして第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記第３特徴ベクトルを利用して前記ｋ個のＲＯＩに対応するそれぞれの前記クラス情報と、それぞれの前記のリグレッション情報とを出力するようにすることを特徴とする。

一例として、前記（ＩＩＩ）プロセスで、前記プロセッサは、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれに対応するそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して、前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする。

一例として、前記プロセッサは、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第１ＦＣレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第１ＦＣレイヤの寄与度に対する情報を参考にして決定されることを特徴とする。

一例として、前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとにそれぞれの前記第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする。

一例として、前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される前記第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする。

本発明のまた他の態様によれば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器をテストするテスト装置において、インストラクションを格納する少なくとも一つのメモリ；及び学習装置が、（１）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの学習用特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記学習用特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにし、（２）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記学習用特徴マップ上で前記ｋ個の学習用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個の学習用ＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記学習用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ利用して、前記ｋ個の学習用ＲＯＩそれぞれに対応するそれぞれの学習用クラス（Ｃｌａｓｓ）情報と、それぞれの学習用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにし、（３）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記学習用クラス情報と、それぞれの前記学習用リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個の学習用ＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用特徴マップを用いて前記テストイメージ内のｍ個のテスト用ＲＯＩを出力するようにするプロセス、及び（ＩＩ）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有する前記プーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記テスト用特徴マップ上で前記ｍ個のテスト用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｍ個のテスト用ＲＯＩそれぞれに対応するｍ個のテスト用第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの前記第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｍ個の前記テスト用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｍ個のテスト用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）前記第２ＦＣレイヤをもって、該当スケールごとのｍ個の前記テスト用第２特徴ベクトルをそれぞれ利用して、前記ｍ個のテスト用ＲＯＩそれぞれに対応するそれぞれのテスト用クラス（Ｃｌａｓｓ）情報と、それぞれのテスト用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とする。

一例として、前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、前記（ＩＩ）プロセスで、前記プロセッサは、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｍ個の前記テスト用第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにしてテスト用第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記テスト用第３特徴ベクトルを利用して前記ｍ個のテスト用ＲＯＩに対応するそれぞれの前記テスト用クラス情報と、それぞれの前記テスト用リグレッション情報とを出力するようにすることを特徴とする。

一例として、前記（３）プロセスで、前記学習装置は、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記学習用第２特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記リグレッションロスの少なくとも一部とを利用して前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする。

一例として、前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとにそれぞれの前記テスト用第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする。

一例として、前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される前記テスト用第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする。

本発明は、互いに異なるプーリングスケールを有するプーリングレイヤそれぞれをもって、特徴マップ上のＲＯＩに対応する領域を該当スケールごとにプーリングするようにすることで、多様なスケールに応じてプーリングされた特徴マップ上のより多くの特徴を利用し得る効果がある。

本発明は、より少ない数のチャネルを利用して演算を遂行するので、コンピューティング演算性能を向上させ得る他の効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

図１は、従来の既存の技術に係る学習過程において、学習装置がバウンディンボックスを予測し、この予測されたバウンディンボックスをこれに対応するＧＴのバウンディンボックスと比較するプロセスを示した図面である。図２は、本発明の一例に係るＣＮＮ基盤の物体検出器を学習する学習装置のブロック図である。図３は、本発明の一例に係るＣＮＮ基盤の物体検出器を学習するプロセスを示した図面である。図４は、本発明の一例に係るＣＮＮ基盤の物体検出器をテストするテスト装置のブロック図である。図５は、本発明の一例に係るＣＮＮ基盤の物体検出器をテストするプロセスを示した図面である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図２は、本発明の一例に係る学習装置１００のブロック図である。

図２に示したように、本発明の一例に係る学習装置１００は、通信部１１０とプロセッサ１２０とを含み得る。場合によっては、データベース１３０をさらに含み得る。また、学習装置は、次のプロセスを遂行するためのコンピュータ読込み可読なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ１１５をさらに含み得る。一例によれば、プロセッサ、メモリ、媒体などは、統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）に統合され得る。

この際、本発明の学習装置１００は、デジタル機器として、プロセッサを搭載して多様な演算能力を備えたデジタル機器であればいくらでも本発明に係る学習装置１００として採択され得る。

通信部１１０は、少なくとも一つの物体を含むトレーニングイメージを取得し得る。この際、トレーニングイメージは、データベース１３０から取得され得る。

プロセッサ１２０は、（ａ）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、特徴マップを利用してトレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにするプロセス；（ｂ）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに特徴マップ上でｋ個のＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとにｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれのプーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ利用して、ｋ個のＲＯＩそれぞれに対応されるそれぞれのクラス（Ｃｌａｓｓ）情報と、それぞれのリグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報を出力するようにするプロセス；及び（ｃ）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれのクラス情報と、それぞれのリグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照してｋ個のＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）及びリグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）を生成するようにすることで、クラスロス及びリグレッションロスを利用したバックプロパゲーションによって、第２ＦＣレイヤと、第１ＦＣレイヤと、前記コンボリューションレイヤとを学習するようにするプロセス；を遂行し得る。これについては、後から詳しく説明する。

ここで、データベース１３０は、学習装置１００の通信部１１０によってアクセスし得、ＧＴ（例えば、物体が自動車であるか、歩行者であるかなどを示すクラス情報）及びバウンディンボックスの位置に対する情報を示すリグレッション情報などが記録され得る。

以下に、このように構成された本発明の一例に係る学習装置１００を用いて、互いに異なる他のスケールを有するプーリングレイヤそれぞれを利用してＣＮＮ基盤の物体検出器を学習する方法を、図３を参照して説明する。

まず、少なくとも一つの物体を含むトレーニングイメージが入力されると、学習装置１００は、コンボリューションレイヤ１０をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つの特徴マップを出力するようにする。

そして、学習装置１００はＲＰＮ２０をもって、特徴マップを利用してトレーニングイメージ内のｋ個のＲＯＩを出力するようにする。ここでｋ個のＲＯＩは、予め設定されたＲＯＩ候補の中から選ばれたものである。

次に、学習装置１００は、互いに異なるスケールを有するプーリングレイヤ３０それぞれをもって、特徴マップ上でＲＰＮ２０から出力されたｋ個のＲＯＩそれぞれに対応される領域それぞれを該当スケールごとにプーリングして、該当スケールごとにｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトルそれぞれを出力するようにする。この際、図３の例では、互いに異なるプーリングスケールを有する３つのプーリングレイヤ３０それぞれが示されたが、本発明はこれらに限定されない。また、プーリングスケールが大きい第１特徴ベクトルは、プーリングスケールの小さい第１特徴ベクトルに比べてより多くの情報を有し得る。

そして、それぞれのプーリングレイヤ３０それぞれから、それぞれのスケールごとにｋ個のＲＯＩに対応するｋ個の第１特徴ベクトルそれぞれが出力されると、学習装置１００は、それぞれのプーリングレイヤ３０それぞれに対応する第１ＦＣレイヤ４０それぞれをもって、該当スケールごとにｋ個の第１特徴ベクトルそれぞれを利用してｋ個の該当スケールごとに第２特徴ベクトルそれぞれを出力するようにする。図３の例では、第１ＦＣレイヤ４０の数が３つとなっているが、これはプーリングレイヤ３０の数が３つであることに起因しているものであり、当発明はこれに限定されるものではない。

また、第１ＦＣレイヤ４０それぞれから出力される該当スケールごとの第２特徴ベクトルそれぞれのチャネル数それぞれは、互いに同一であり得る。一例として、図３に示された通り、第１ＦＣレイヤ４０それぞれから出力される第２特徴ベクトルのチャネル数は１２８であり得るが、これに限定されるものではない。

また、第１ＦＣレイヤ４０から出力される第２特徴ベクトルの総チャネル数が、予め設定された数未満になるようにし得る。一例として、図３に示された通り、第１ＦＣレイヤ４０それぞれから出力される第２特徴ベクトルのチャネル数は、３８４（１２８＋１２８＋１２８）であり得るが、これに限定されるものではない。この場合、一般的に４，０９６個のチャネルを有する特徴ベクトルを演算する従来の方法に比べて、本発明に係る演算を遂行するチャネル数は３８４個と少なくなるので、これによって学習装置１００の演算能力を上昇させ得るようになる。

その後、学習装置１００は、ｋ個の第２特徴ベクトルそれぞれを第２ＦＣレイヤ５０に入力することにより、第２ＦＣレイヤ５０をもって、ｋ個の該当スケールごとの第２特徴ベクトルそれぞれを利用してｋ個のＲＯＩそれぞれに対応するそれぞれのクラス情報とそれぞれのリグレッション情報を出力するようにする。

この際、第２ＦＣレイヤ５０は、第２＿１ＦＣレイヤ５１及び第２＿２ＦＣレイヤ５５を含み得る。第２＿１ＦＣレイヤ５１は、第１ＦＣレイヤ４０それぞれから出力される第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）して第３特徴ベクトルを出力し得る。第２＿２ＦＣレイヤ５５は、第３特徴ベクトルを利用してｋ個のＲＯＩに対応するそれぞれのクラス情報と、それぞれのリグレッション情報とを出力し得る。

次に、学習装置１００は、第１ロスレイヤ６０をもって、それぞれのクラス情報と、それぞれのリグレッション情報と、これに対応する第１ＧＴとを参照してｋ個のＲＯＩに対応するクラスロス及びリグレッションロスを生成するようにし、クラスロス及びリグレッションロスを利用したバックプロパゲーションによって、第２ＦＣレイヤと、第１ＦＣレイヤと、コンボリューションレイヤとを学習し得る。

この際、学習装置１００は、第１ＦＣレイヤ４０それぞれから出力されたｋ個の該当スケールごとの第２特徴ベクトルそれぞれに対応するそれぞれのクラスロスと、それぞれのリグレッションロスとを利用してそれぞれの第１ＦＣレイヤ４０を学習し得る。言い換えれば、学習装置１００は、それぞれのクラスロス及びそれぞれのリグレッションロスに対して、それぞれの重み付け値を適用してバックプロパゲーションによって第１ＦＣレイヤ４０それぞれを学習し得り、それぞれの重み付け値は、それぞれのクラスロスと、それぞれのリグレッションロスとに対するそれぞれの第１ＦＣレイヤ４０の寄与度に対する情報を参考にして決定される。

また、学習装置１００は、第２ロスレイヤ２１をもって、ＲＯＩ候補及びこれに対応する第２ＧＴを参照してＲＯＩのロスを取得するようにし、取得されたＲＯＩロスを利用したバックプロパゲーションによってＲＰＮを学習し得る。このようなＲＰＮの学習は、ＲＯＩ候補群が出力されればいつでも可能である。また、ＲＯＩロスは、ＲＯＩクラスロスと、ＲＯＩリグレッションロスとを含み得る。

図４は、本発明の一例に係るＣＮＮ基盤の物体検出器をテストするテスト装置４００を概略的に示したブロック図である。

図４に示したように、本発明の一例に係るテスト装置４００は、通信部４０１と、プロセッサ４０２とを含み得る。図面では、テスト装置４００と学習装置１００を区別して表現したが、テスト装置４００と学習装置１００は同一な装置であり得る。また、学習装置は、次のプロセスを遂行するためのコンピュータ読込み可読なインストラクション（Ｉｎｓｔｒｕｃｔｉｏｎ）を格納し得るメモリ４０３をさらに含み得る。一例によれば、プロセッサ、メモリ、媒体などは、統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）に統合され得る。

参考までに、以下の説明において混乱を避けるために、学習プロセスに関連する用語には「学習用」という単語が追加され、テスト用プロセスに関連する用語には「テスト用」という単語が追加された。

（１）学習装置が、（ｉ）コンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、トレーニングイメージに対してコンボリューション演算を適用して、学習用特徴マップを出力するようにし、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、学習用特徴マップを利用してトレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにし、（２）学習装置が、（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに学習用特徴マップ上でｋ個の学習用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとにｋ個の学習用ＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれのプーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の学習用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の学習用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）第２ＦＣレイヤをもって、該当スケールごとにｋ個の学習用第２特徴ベクトルをそれぞれ利用して、ｋ個の学習用ＲＯＩそれぞれに対応するそれぞれの学習用クラス（Ｃｌａｓｓ）情報と、それぞれの学習用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにし、（３）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの学習用クラス情報と、それぞれの学習用リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照してｋ個の学習用ＲＯＩに対応するクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、クラスロス及びリグレッションロスを利用したバックプロパゲーションによって、第２ＦＣレイヤと、第１ＦＣレイヤと、コンボリューションレイヤとを学習した状態で、通信部４０１は、少なくとも一つのテスト用物体を含むテストイメージを取得し得る。

プロセッサ４２０は（Ｉ）（ｉ）コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、（ｉｉ）ＲＰＮをもって、テスト用特徴マップを用いてテストイメージ内のｍ個のテスト用ＲＯＩを出力するようにする第１プロセス；及び（２）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとにテスト用特徴マップ上でｍ個のテスト用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとにｍ個のテスト用ＲＯＩそれぞれに対応するｍ個のテスト用第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれのプーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）をもって、該当スケールごとにｍ個のテスト用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｍ個のテスト用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）第２ＦＣレイヤをもって、該当スケールごとのｍ個のテスト用第２特徴ベクトルをそれぞれ利用して、ｍ個のテスト用ＲＯＩそれぞれに対応するそれぞれのテスト用クラス（Ｃｌａｓｓ）情報と、それぞれのテスト用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにする第２プロセスを遂行し得る。

ここで、テスト装置４００においてＲＰＮが出力するＲＯＩの数であるｍ個は、学習装置１００においてＲＰＮが出力するＲＯＩの数であるｋ個より小さいか、同じであり得るが、これに限定されるものではない。

このように構成されたテスト装置４００を利用して、本発明の一例に係る互いに異なるプーリングスケールを有するプーリングレイヤそれぞれを利用してＣＮＮ基盤の物体検出器をテストする方法を、図５を参照にしながら説明する。以下の説明において、学習方法から容易に理解可能な部分については詳細な説明を省略することにする。

まず、図３を参照に説明した学習方法によって、第２ＦＣレイヤ４５０と、第１ＦＣレイヤ４４０と、コンボリューションレイヤ４１０とを学習した状態で、テストイメージが入力されると、テスト装置４００は、コンボリューションレイヤ４１０をもってテストイメージに対してコンボリューション演算を少なくとも一度適用するようにし、少なくとも一つのテスト用特徴マップを出力するようにする。

コンボリューションレイヤ４１０から出力されたテスト用特徴マップをＲＰＮ４２０に入力して、テスト装置４００は、ＲＰＮ４２０をもって、テスト用特徴マップを利用してテストイメージに対応するｍ個のテスト用ＲＯＩを出力するようにする。

次に、テスト装置４００は、互いに異なるプーリングスケールを有するプーリングレイヤ４３０それぞれをもって、テスト用特徴マップ上でｍ個のテスト用ＲＯＩに対応するそれぞれの領域を該当スケールごとにプーリングするようにして、該当スケールごとにｍ個のテスト用ＲＯＩに対応するｍ個の第１テスト用特徴ベクトルそれぞれを出力するようにする。この際、図５の例では、互いに異なるプーリングスケールを有する３つのプーリングレイヤ４３０それぞれが示されたが、本発明はこれらに限定されるわけではない。また、プーリングスケールが大きい第１テスト用特徴ベクトルは、プーリングスケールの小さい第１テスト用特徴ベクトルに比べてより多くの情報を有し得る。

そして、テスト装置４００は、それぞれのプーリングレイヤ４３０に対応するそれぞれの第１ＦＣレイヤ４４０をもって、ｍ個の該当スケールごとに第１テスト用特徴ベクトルそれぞれを利用して、ｍ個の該当スケールごとに第２テスト用特徴ベクトルそれぞれを出力するようにする。図５の例では、第１ＦＣレイヤ４４０の数が３つとなっているが、これはプーリングレイヤ４３０の数が３つであることに起因しているものであり、当発明はこれに限定されるものではない。

また、第１ＦＣレイヤ４４０それぞれから出力される該当スケールごとの第２テスト用特徴ベクトルそれぞれのチャネル数それぞれは、同一であり得る。一例として、図５に示されたように、第１ＦＣレイヤ４４０それぞれから出力される該当スケールごとの第２テスト用特徴ベクトルのチャネル数は、それぞれ１２８であり得るが、これに限定されるものではない。

また、第１ＦＣレイヤ４４０それぞれから出力される第２テスト用特徴ベクトルの総チャネル数が、予め設定された数未満になるようにし得る。一例として、図５に示された通り、第１ＦＣレイヤ４４０それぞれから出力される第２テスト用特徴ベクトルの総チャネル数は、３８４（１２８＋１２８＋１２８）であり得るが、これに限定されるものではない。この場合、一般的に４，０９６チャネルを有する特徴ベクトルを演算する従来の方法に比べて、本発明に係る全ての演算を遂行するチャネル数は３８４個と少なくなるので、これによってテスト装置４００の演算能力を上昇させ得るようになる。

その後、テスト装置４００は、第２ＦＣレイヤをもって、該当スケールごとにｍ個の第２テスト用特徴ベクトルをそれぞれ利用してｍ個のテスト用ＲＯＩそれぞれに対応するそれぞれのテスト用クラス情報と、それぞれのテスト用リグレッション情報とを出力するようにする。

この際、第２ＦＣレイヤ４５０は、第２＿１ＦＣレイヤ４５１及び第２＿２ＦＣレイヤ４５５を含み得る。第２＿１ＦＣレイヤ４５１は、第１ＦＣレイヤ４４０それぞれから出力される第２テスト用特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）して第３テスト用特徴ベクトルを出力し得る。第２＿２ＦＣレイヤ４５５は、第３テスト用特徴ベクトルを利用してm個のテスト用ＲＯＩに対応するそれぞれのテスト用クラス情報と、それぞれのテスト用リグレッション情報とを出力し得る。

本発明に係る学習方法とテスト方法は、物体のスケールによってモードを転換し得るＣＮＮを利用して監視用として利用され得る。モードによって様々なレイヤの重み付け値及び／または多様なロスの重み付け値は調整され得る。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータで読み取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１００：学習装置
１１０：通信部
１２０：プロセッサ
１３０：データベース
４００：テスト装置
４１０：通信部
４２０：プロセッサ

Claims

ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器を学習する方法において、
（ａ）少なくとも一つの物体含むトレーニングイメージが入力されると、学習装置が、少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにする段階；
（ｂ）前記学習装置が、（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記特徴マップ上で前記ｋ個のＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記第２特徴ベクトルをそれぞれ利用して、前記ｋ個のＲＯＩそれぞれに対応するそれぞれのクラス（Ｃｌａｓｓ）情報と、それぞれのリグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにする段階；及び
（ｃ）前記学習装置が、第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個のＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションを通じて、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習するようにする段階；
を含むことを特徴とする学習方法。
前記ｋ個のＲＯＩは、前記ＲＰＮによって予め設定されたＲＯＩ候補の中から選択されたものであり、
前記（ａ）段階の後に、
前記学習装置は、第２ロスレイヤをもって、前記ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする請求項１に記載の学習方法。
前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、
前記（ｂ）段階で、
前記学習装置は、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにして第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記第３特徴ベクトルを利用して、前記ｋ個のＲＯＩに対応するそれぞれの前記クラス情報と、それぞれの前記リグレッション情報とを出力するようにすることを特徴とする請求項１に記載の学習方法。
前記（ｃ）段階で、
前記学習装置は、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して、前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする請求項１に記載の学習方法。
前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第１ＦＣレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第１ＦＣレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項４に記載の学習方法。
前記学習装置は、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとに前記第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項１に記載の学習方法。
前記学習装置は、それぞれの前記第１ＦＣレイヤから出力される前記第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項１に記載の学習方法。
ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器をテストする方法において、
（ａ）学習装置が、（１）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの学習用特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記学習用特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにし、（２）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記学習用特徴マップ上で前記ｋ個の学習用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個の学習用ＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記学習用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ利用して、前記ｋ個の学習用ＲＯＩそれぞれに対応するそれぞれの学習用クラス（Ｃｌａｓｓ）情報と、それぞれの学習用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにし、（３）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記学習用クラス情報と、それぞれの前記学習用リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個の学習用ＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習した状態で、テスト装置が、（ｉ）前記コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮにをもって前記テスト用特徴マップを用いて前記テストイメージ内のｍ個のテスト用ＲＯＩを出力させる段階；及び
（ｂ）前記テスト装置が、（ｉ）互いに異なるプーリングスケールを有する前記プーリングレイヤそれぞれをもって、該当スケールごとに前記テスト用特徴マップ上で前記ｍ個のテスト用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｍ個のテスト用ＲＯＩそれぞれに対応するｍ個のテスト用第１特徴ベクトルそれぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの前記第１ＦＣレイヤをもって、該当スケールごとにｍ個の前記テスト用第１特徴ベクトルをそれぞれ利用して、該当スケールごとにｍ個のテスト用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）前記第２ＦＣレイヤをもって、該当スケールごとにｍ個の前記テスト用第２特徴ベクトルをそれぞれ利用して前記ｍ個のテスト用ＲＯＩそれぞれに対応するそれぞれのテスト用クラス情報と、それぞれのテスト用リグレッション情報とを出力するようにする段階；
を含むことを特徴とするテスト方法。
前記ｋ個の学習用ＲＯＩは、前記ＲＰＮにより予め設定された学習用ＲＯＩ候補の中から選択されたものであり、
前記（１）プロセスの後、
前記学習装置は、第２ロスレイヤをもって、前記学習用ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする請求項８に記載のテスト方法。
前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、
前記（ｂ）段階で、
前記テスト装置は、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｍ個の前記テスト用第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにしてテスト用第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記テスト用第３特徴ベクトルを利用して前記ｍ個のテスト用ＲＯＩに対応するそれぞれの前記テスト用クラス情報と、それぞれの前記テスト用リグレッション情報とを出力するようにすることを特徴とする請求項８に記載のテスト方法。
前記（３）プロセスで、
前記学習装置は、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記学習用第２特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする請求項８に記載のテスト方法。
前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第１ＦＣレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第１ＦＣレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項１１に記載のテスト方法。
前記テスト装置は、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとに前記テスト用第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項８に記載のテスト方法。
前記テスト装置は、それぞれの前記第１ＦＣレイヤから出力される前記テスト用第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項８に記載のテスト方法。
ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器を学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、少なくとも一つの物体を含むトレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つの特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにするプロセス、（ＩＩ）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記特徴マップ上で前記ｋ個のＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個のＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記第２特徴ベクトルをそれぞれ利用して、前記ｋ個のＲＯＩそれぞれに対応されるそれぞれのクラス（Ｃｌａｓｓ）情報と、それぞれのリグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報を出力するようにするプロセス、及び（ＩＩＩ）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記クラス情報と、それぞれの前記リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個のＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とする学習装置。
前記ｋ個のＲＯＩは、前記ＲＰＮによって予め設定されたＲＯＩ候補の中から選択されたものであり、
前記（Ｉ）プロセスの後、
前記プロセッサは、第２ロスレイヤをもって、前記ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする請求項１５に記載の学習装置。
前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、
前記（ＩＩ）プロセスで、
前記プロセッサは、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにして第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記第３特徴ベクトルを利用して前記ｋ個のＲＯＩに対応するそれぞれの前記クラス情報と、それぞれの前記のリグレッション情報とを出力するようにすることを特徴とする請求項１５に記載の学習装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサは、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記第２特徴ベクトルそれぞれに対応するそれぞれの前記クラスロスと、それぞれの前記のリグレッションロスの少なくとも一部とを利用して、前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする請求項１５に記載の学習装置。
前記プロセッサは、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第１ＦＣレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第１ＦＣレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項１８に記載の学習装置。
前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとにそれぞれの前記第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項１５に記載の学習装置。
前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される前記第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項１５に記載の学習装置。
ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の物体検出器をテストするテスト装置において、
インストラクションを格納する少なくとも一つのメモリ；及び
学習装置が、（１）少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）をもって、トレーニングイメージに対してコンボリューション演算を少なくとも一度適用するようにして少なくとも一つの学習用特徴マップを出力するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）をもって、前記学習用特徴マップを利用して前記トレーニングイメージ内のｋ個のＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ）を出力するようにし、（２）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有するプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記学習用特徴マップ上で前記ｋ個の学習用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｋ個の学習用ＲＯＩそれぞれに対応するｋ個の第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｋ個の前記学習用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）少なくとも一つの第２ＦＣレイヤをもって、該当スケールごとにｋ個の前記学習用第２特徴ベクトルをそれぞれ利用して、前記ｋ個の学習用ＲＯＩそれぞれに対応するそれぞれの学習用クラス（Ｃｌａｓｓ）情報と、それぞれの学習用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにし、（３）第１ロスレイヤ（ＬｏｓｓＬａｙｅｒ）をもって、それぞれの前記学習用クラス情報と、それぞれの前記学習用リグレッション情報と、これに対応する第１ＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して前記ｋ個の学習用ＲＯＩに対応されるクラスロス（ＣｌａｓｓＬｏｓｓ）と、リグレッションロス（ＲｅｇｒｅｓｓｉｏｎＬｏｓｓ）とを生成するようにすることで、前記クラスロス及び前記リグレッションロスを利用したバックプロパゲーションによって、前記第２ＦＣレイヤと、前記第１ＦＣレイヤと、前記コンボリューションレイヤとを学習した状態で、（Ｉ）（ｉ）前記コンボリューションレイヤをもって、テストイメージに対してコンボリューション演算を少なくとも一度適用するようにして、少なくとも一つのテスト用特徴マップを出力するようにし、（ｉｉ）前記ＲＰＮをもって、前記テスト用特徴マップを用いて前記テストイメージ内のｍ個のテスト用ＲＯＩを出力するようにするプロセス、及び（ＩＩ）（ｉ）互いに異なるプーリングスケール（ＰｏｏｌｉｎｇＳｃａｌｅ）を有する前記プーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）それぞれをもって、該当スケールごとに前記テスト用特徴マップ上で前記ｍ個のテスト用ＲＯＩに対応するそれぞれの領域をプーリングするようにして、該当スケールごとに前記ｍ個のテスト用ＲＯＩそれぞれに対応するｍ個のテスト用第１特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）それぞれを出力するようにし、（ｉｉ）それぞれの前記プーリングレイヤに対応するそれぞれの前記第１ＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）それぞれをもって、該当スケールごとにｍ個の前記テスト用第１特徴ベクトルをそれぞれ利用して該当スケールごとにｍ個のテスト用第２特徴ベクトルをそれぞれ出力するようにし、（ｉｉｉ）前記第２ＦＣレイヤをもって、該当スケールごとのｍ個の前記テスト用第２特徴ベクトルをそれぞれ利用して、前記ｍ個のテスト用ＲＯＩそれぞれに対応するそれぞれのテスト用クラス（Ｃｌａｓｓ）情報と、それぞれのテスト用リグレッション（Ｒｅｇｒｅｓｓｉｏｎ）情報とを出力するようにするプロセスを遂行するための、前記インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスト装置。
前記ｋ個の学習用ＲＯＩは、前記ＲＰＮにより予め設定された学習用ＲＯＩ候補の中から選択されたものであり、
前記（１）プロセスの後、
前記学習装置は、第２ロスレイヤをもって、前記学習用ＲＯＩ候補及びそれに対応する第２ＧＴを参照してＲＯＩロスを生成するようにすることで、前記ＲＯＩロスを利用したバックプロパゲーションによって前記ＲＰＮを学習するようにすることを特徴とする請求項２２に記載のテスト装置。
前記第２ＦＣレイヤは、第２＿１ＦＣレイヤ及び第２＿２ＦＣレイヤを含み、
前記（ＩＩ）プロセスで、
前記プロセッサは、（ｉ）前記第２＿１ＦＣレイヤをもって、前記第１ＦＣレイヤのそれぞれから出力される該当スケールごとにｍ個の前記テスト用第２特徴ベクトルそれぞれをコンカチネート（Ｃｏｎｃａｔｅｎａｔｅ）するようにしてテスト用第３特徴ベクトルを出力するようにし、（ｉｉ）前記第２＿２ＦＣレイヤをもって、前記テスト用第３特徴ベクトルを利用して前記ｍ個のテスト用ＲＯＩに対応するそれぞれの前記テスト用クラス情報と、それぞれの前記テスト用リグレッション情報とを出力するようにすることを特徴とする請求項２２に記載のテスト装置。
前記（３）プロセスで、
前記学習装置は、前記第１ＦＣレイヤそれぞれから出力された該当スケールごとにｋ個の前記学習用第２特徴ベクトルそれぞれに対応されるそれぞれの前記クラスロスと、それぞれの前記リグレッションロスの少なくとも一部とを利用して前記第１ＦＣレイヤそれぞれを学習するようにすることを特徴とする請求項２２に記載のテスト装置。
前記学習装置は、それぞれの前記クラスロス及びそれぞれの前記リグレッションロスに対してそれぞれの重み付け値を適用して、バックプロパゲーションによって前記第１ＦＣレイヤそれぞれを学習し、それぞれの前記重み付け値は、それぞれの前記クラスロスと、それぞれの前記リグレッションロスとに対するそれぞれの前記第１ＦＣレイヤの寄与度に対する情報を参考にして決定されることを特徴とする請求項２５に記載のテスト装置。
前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される該当スケールごとにそれぞれの前記テスト用第２特徴ベクトルのチャネル数が互いに同一になるようにすることを特徴とする請求項２２に記載のテスト装置。
前記プロセッサは、それぞれの前記第１ＦＣレイヤから出力される前記テスト用第２特徴ベクトルの総チャネル数が予め設定された数未満になるようにすることを特徴とする請求項２２に記載のテスト装置。