JP2022539659A

JP2022539659A - アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法及び装置

Info

Publication number: JP2022539659A
Application number: JP2021570541A
Authority: JP
Inventors: 宇宙柳; 泓模諸; 鳳男康; 鎔重金
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2020-05-13
Filing date: 2020-12-24
Publication date: 2022-09-13
Anticipated expiration: 2040-12-24
Also published as: EP3910532C0; EP3910532B1; US10970598B1; WO2021230457A1; JP7233571B2; EP3910532A1; CN115769229A; KR20210143948A

Abstract

アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる方法が示される。即ち、（ａ）学習装置が、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させる段階；（ｂ）前記学習装置が、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させる段階；及び（ｃ）前記学習装置が、（ｉ）前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、（ｉｉ）前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び（ｉｉｉ）前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行する段階を含む方法が示される。【選択図】図２

Description

本発明は、物体検出ネットワークを学習及びテストする方法に関し、より詳細には、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストする方法、そして、これを利用した学習装置及びテスト装置に関する。

一般的に自律走行車両は、マシンラーニング基盤に走行環境を分析して自律走行が可能となるようにするものであり、事前に走行環境に対応する様々な学習データを利用して学習されたラーニングネットワークを利用して自律走行をしている。

しかし、事前に学習されたラーニングネットワークを利用して自動車が走行する様々な走行環境を全てカバーすることは、事実上不可能である。

そして、デバイスから収集した情報をクラウドサーバに伝送して分析し、再びデバイスに伝送して、デバイスに設けられたラーニングネットワークを学習させることによって様々な走行環境に対応する方法などが提案されているが、クラウド通信に制約のある状況では学習が困難であるという問題点がある。

したがって、最近では、ラーニングネットワークが様々な走行環境をカバーすることができるようにして、クラウド通信に制約のある状況でも学習が可能なオンデバイスラーニング方法が提案されている。

即ち、オンデバイスラーニングは、クラウドサーバを介すことなく、デバイスが自主的に情報を収集し、収集した情報を利用してラーニングネットワークを学習させる方法である。

しかし、オンデバイスラーニングの場合、知識の蒸留を行うことができる教師ネットワークを使用することができないため、ポジティブ／ネガティブサンプリングをすることが困難であり、自律走行車両などのようなデバイスのエンベディッドシステム（ｅｍｂｅｄｄｅｄｓｙｓｔｅｍ）の限定されたコンピューティングパワーによってエンドツーエンドバックプロパゲーションをすることが困難であるという限界がある。

したがって、オンデバイスラーニングの限界を克服することができ、ラーニングネットワークの性能を向上させることができる新しい技術が要求される実情である。

本発明は、上述した問題点を全て解決することをその目的とする。

また、本発明は、別途の学習動作を行うことなく物体検出ネットワークの性能を向上させることを他の目的とする。

また、本発明は、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークの性能を向上させることを他の目的とする。

また、本発明は、クロス－蒸留ロスレイヤ（ｃｒｏｓｓ－ｄｉｓｔｉｌｌｅｄｌｏｓｓｌａｙｅｒ）を利用してカタストロフィック忘却の発生を防止することを他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は以下のとおりである。

本発明の一態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる方法において、（ａ）学習装置が、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させる段階；（ｂ）前記学習装置が、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させる段階；及び（ｃ）前記学習装置が、（ｉ）前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、（ｉｉ）前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び（ｉｉｉ）前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行する段階を含む方法が示される。

一例として、前記（ａ）段階で、前記学習装置は、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第１サブ特徴マップを生成させ、前記学習用第１サブ特徴マップを１ｘ１コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第２サブ特徴マップを生成させ、前記学習用第２サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第２サブ特徴マップにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する学習用第３サブ特徴マップを生成させ、前記学習用第３サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる方法が示される。

一例として、前記（ａ）段階で、前記学習装置は、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる方法が示される。

一例として、前記学習装置は、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる方法が示される。

本発明の他の態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法において、（ａ）学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、テスト装置が、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納する段階；（ｂ）前記テスト装置が、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在－以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記ＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させる段階；及び（ｃ）前記テスト装置が、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在－以前のソフト予測マップを参照して生成された蒸留ロスと、を利用して前記アテンションネットワークを学習させる段階を含む方法が示される。

一例として、前記（ｂ）段階で、前記テスト装置は、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第１サブ特徴マップと現在の第１サブ特徴マップとをそれぞれ生成させ、前記以前の第１サブ特徴マップと前記現在の第１サブ特徴マップとのそれぞれを１ｘ１コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第２特徴マップと現在の第２サブ特徴マップとをそれぞれ生成させ、前記現在の第２サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第２サブ特徴マップと現在の第２サブ特徴マップとのそれぞれにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する以前の第３サブ特徴マップと現在の第３サブ特徴マップとをそれぞれ生成させ、前記現在の第３サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第３サブ特徴マップと前記現在の第３サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在－以前のソフト特徴マップと前記現在のソフト予測マップとを生成させる方法が示される。

一例として、前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数である方法が示される。

一例として、前記（ｂ）段階で、前記テスト装置は、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させる方法が示される。

一例として、前記テスト装置は、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させる方法が示される。

本発明の他の態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置において、インストラクションを格納する一つ以上のメモリ；及び前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、（Ｉ）前記プロセッサが、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させるプロセス；（ＩＩ）前記プロセッサが、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させるプロセス；及び（ＩＩＩ）前記プロセッサが、（ｉ）前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、（ｉｉ）前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び（ｉｉｉ）前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行するプロセスを遂行する学習装置が示される。

一例として、前記（Ｉ）プロセスで、前記プロセッサが、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第１サブ特徴マップを生成させ、前記学習用第１サブ特徴マップを１ｘ１コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第２サブ特徴マップを生成させ、前記学習用第２サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第２サブ特徴マップにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する学習用第３サブ特徴マップを生成させ、前記学習用第３サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる学習装置が示される。

一例として、前記（Ｉ）プロセスで、前記プロセッサが、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる学習装置が示される。

一例として、前記プロセッサが、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる学習装置が示される。

本発明の他の態様によると、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストするテスト装置において、インストラクションを格納する一つ以上のメモリ；及び前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、（Ｉ）学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、前記プロセッサが、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納するプロセス；（ＩＩ）前記プロセッサが、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在－以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記ＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させるプロセス；及び（ＩＩＩ）前記プロセッサが、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在－以前のソフト予測マップを参照して生成された蒸留ロスと、を利用して前記アテンションネットワークを学習させるプロセスを遂行するテスト装置が示される。

一例として、前記（ＩＩ）プロセスで、前記プロセッサが、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第１サブ特徴マップと現在の第１サブ特徴マップとをそれぞれ生成させ、前記以前の第１サブ特徴マップと前記現在の第１サブ特徴マップとのそれぞれを１ｘ１コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第２特徴マップと現在の第２サブ特徴マップとをそれぞれ生成させ、前記現在の第２サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第２サブ特徴マップと現在の第２サブ特徴マップとのそれぞれにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する以前の第３サブ特徴マップと現在の第３サブ特徴マップとをそれぞれ生成させ、前記現在の第３サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第３サブ特徴マップと前記現在の第３サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在－以前のソフト特徴マップと前記現在のソフト予測マップとを生成させるテスト装置が示される。

一例として、前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数であるテスト装置が示される。

一例として、前記（ＩＩ）プロセスで、前記プロセッサが、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させるテスト装置が示される。

一例として、前記プロセッサが、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させるテスト装置が示される。

本発明は、別途の学習動作を行うことなく物体検出ネットワークの性能を向上させる方法を提供することができる効果がある。

また、本発明はアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークの性能を向上させる方法を提供することができる効果がある。

また、本発明はクロス－蒸留ロスレイヤを利用してカタストロフィック忘却の発生を防止する方法を提供することができる効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

図１は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置を簡略に示した図面である。図２は、本発明の一実施例において、アテンションマップを利用して学習イメージ上の物体を検出する物体検出ネットワークを学習させる方法を簡略に示した図面である。図３は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習する過程でアテンションマップとクロスエントロピーロスとを生成する過程を簡略に示した図面であり、図４は、本発明の一実施例において、特徴マップとアテンションマップとを利用してアテンショナル特徴マップを生成する過程を簡略に示した図面である。図５は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストするテスト装置を簡略に示した図面である。図６は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法を簡略に示した図面である。図７は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする過程でアテンションネットワークを連続学習させる過程を簡略に示した図面である。

後述する本発明に対する詳細な説明は、本発明の目的、技術的解決法及び利点を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに本発明は本明細書に表示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、類似する機能を指す。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例において、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置を簡略に示した図面であり、図１を参照すると、学習装置１０００は、アテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークを学習させるための各インストラクションが格納されたメモリ１１００と、メモリ１１００に格納された各インストラクションによってアテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークを学習させるための動作を遂行するプロセッサ１２００とを含むことができる。

具体的には、学習装置１０００は典型的にコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）及びコンピュータソフトウェア（即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）の組合せを利用して所望のシステム性能を達成するものであり得る。

また、コンピューティング装置のプロセッサはＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。

しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。

このように構成された本発明の一実施例において、学習装置１０００によって、アテンションマップを利用して学習イメージ上の物体を検出する物体検出ネットワークを学習させる方法を図２を参照して説明すると次の通りである。

まず、学習イメージが獲得されると、学習装置１０００が、学習イメージを特徴抽出ネットワーク１２１０に入力することで特徴抽出ネットワーク１２１０をもって前記学習イメージをコンボリューション演算して学習用特徴マップを出力させることができる。

この際、特徴抽出ネットワーク１２１０は少なくとも一つのコンボリューションレイヤを含むことができ、前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを生成することができる。そして、学習用特徴マップのボリュームはＫ×Ｈ×Ｗであり得、Ｈは学習用特徴マップの高さ（ｈｅｉｇｈｔ）、Ｗは学習用特徴マップの幅（ｗｉｄｔｈ）、Ｋは学習用特徴マップのチャンネルの個数であり得る。

それから、学習装置１０００は、前記学習用特徴マップをアテンションネットワーク１２２０に入力することで、アテンションネットワーク１２２０をもって前記学習用特徴マップに対応する学習用予測マップと学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップとを出力させることができる。

この際、図３を参照すると、アテンションネットワーク１２２０は少なくとも一つのコンボリューションレイヤ１２２１を通じて前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第１サブ特徴マップを生成し、第１の１ｘ１コンボリューションレイヤ１２２２を通じて前記学習用第１サブ特徴マップを１ｘ１コンボリューション演算して学習用第２サブ特徴マップを生成する。この際、第１の１ｘ１コンボリューションレイヤ１２２２はｋ個のカーネルを利用して前記学習用第１サブ特徴マップを１ｘ１コンボリューション演算することで前記学習用第２サブ特徴マップがｋ個のチャンネルを有するようにすることができ、ｋを前記学習用特徴マップのチャンネルの個数と同一にすることで前記学習用第２サブ特徴マップのチャンネルの個数が前記学習用特徴マップのチャンネルの個数と同一となるようにすることができる。即ち、学習用第２サブ特徴マップのボリュームはＫ×Ｈ×Ｗとなり得る。

そして、アテンションネットワーク１２２０は、前記学習用第２サブ特徴マップにシグモイド関数を適用して前記学習用第２サブ特徴マップに対応する学習用アテンションマップを出力することができる。

この際、前記学習用アテンションマップは、前記学習イメージ上に位置する前記学習用物体の密度を示すマップであり得、前記学習イメージ上において情報量の多い特定の領域をフォーカシングしたものであり得る。

また、アテンションネットワーク１２２０はＲｅＬＵ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）１２２３を通じて前記学習用第２サブ特徴マップにＲｅＬＵ関数を適用することによって特徴化した学習用第２サブ特徴マップを生成し、第２の１ｘ１コンボリューションレイヤ１２２４を通じて前記特徴化した学習用第２サブ特徴マップを１ｘ１コンボリューション演算して学習用第３サブ特徴マップを生成することができる。

この際、第２の１ｘ１コンボリューションレイヤ１２２４は一つのカーネルを利用して前記学習用第２サブ特徴マップを１ｘ１コンボリューション演算することで前記学習用第３サブ特徴マップが１個のチャンネルを有するようにすることができる。即ち、学習用第３サブ特徴マップのボリュームは１×Ｈ×Ｗとなり得る。

それから、アテンションネットワーク１２２０は、前記学習用第３サブ特徴マップにシグモイド関数を適用して前記学習用特徴マップに対応する学習用予測マップを生成することができる。

また、図２を参照すると、学習装置１０００は、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤ１２３０に入力することでコンカチネーションレイヤ１２３０をもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させることができる。

この際、図４を参照すると、コンカチネーションレイヤ１２３０は、前記学習用アテンションマップと前記学習用特徴マップとの要素ごとの積を計算１２３１して学習用インターミディエイトアテンションマップを生成した後、前記学習用インターミディエイトアテンションマップと前記学習用特徴マップとの要素ごとの和を計算１２３２して前記学習用アテンショナル特徴マップを生成することができる。この際、前記学習用アテンショナル特徴マップは、前記学習用アテンションマップを参照して前記学習用特徴マップ上において情報量の多い特定の領域をフォーカシングしたものであるため、後続物体検出の性能を向上させることができる。

次に、学習装置１０００は、前記学習用アテンショナル特徴マップをＲＰＮ１２４０に入力することで、ＲＰＮ１２４０をもって前記学習用アテンショナル特徴マップ上における学習用物体候補に対する学習用候補ボックスを出力させることができる。

この際、ＲＰＮ１２４０は、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして前記学習用特徴マップ上において情報量の多い特定の領域が前記フォーカシングされた学習用アテンショナル特徴マップを利用して前記学習用候補ボックスを生成するため、単に前記学習用特徴マップのみを利用する場合に比べて正確な候補ボックスを生成することができる。

そして、学習装置１０００は、前記学習用候補ボックスをバイナリコンバータ１２７０に入力することでバイナリコンバータ１２７０をもって前記学習用候補ボックスをバイナリ化することで、前記学習用バイナリマップに変換させることができる。この際、学習装置１０００は、前記学習用バイナリマップのサイズを前記学習用特徴マップのサイズにリサイズすることで、前記学習用バイナリマップがアテンションネットワーク１２２０の学習のための目標値として使用され得るようにすることができる。

また、学習装置１０００は、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤ１２５０に入力することで、ＲＯＩプーリングレイヤ１２５０をもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワーク１２６０に入力することで、前記検出ネットワーク１２６０をもって学習用プーリング済み特徴マップをラーニング演算、一例として、ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させることができる。

この際、検出ネットワーク１２６０は、前記学習用特徴マップ上において情報量の多い特定の領域が前記フォーカシングされた学習用アテンショナル特徴マップを利用して生成された前記学習用プーリング済み特徴マップを利用して物体検出を遂行するため、単に前記学習用特徴マップのみを利用する場合に比べて向上した性能の物体検出を遂行することができる。

次に、学習装置１０００は、前記物体検出情報とこれに対応する物体検出原本正解とを物体ロスレイヤ１２６１に入力することで物体ロスレイヤ１２６１をもって物体検出ロスを獲得させ、前記学習用候補ボックスとこれに対応するＲＰＮ原本正解とをＲＰＮロスレイヤ１２４１に入力することでＲＰＮロスレイヤ１２４１をもってＲＰＮロスを獲得させ、前記学習用予測マップと前記学習用バイナリマップとをクロス－蒸留ロスレイヤ１２８０に入力することでクロス－蒸留ロスレイヤ１２８０をもって学習用クロスエントロピーロスを獲得させることができる。それから、学習装置１０００は、前記物体検出ロスを利用したバックプロパゲーションを通じて特徴抽出ネットワーク１２１０及び検出ネットワーク１２６０のうち少なくとも一つを学習させるプロセス、前記ＲＰＮロスを利用したバックプロパゲーションを通じてＲＰＮ１２４０を学習させるプロセス、及び前記学習用クロスエントロピーロスを利用したバックプロパゲーションを通じてアテンションネットワーク１２２０を学習させるプロセスのうち少なくとも一部を遂行することができる。

この際、クロスエントロピーロスは次の数式のように示され得る。

クロスエントロピーロス＝Ｌ_ce（σ（Ｚ_c）,Ｙ_c）

前記で、σ（Ｚ_c）は、前記学習用第３サブ特徴マップにシグモイド関数を適用した前記学習用予測マップを示し、Ｙ_cは、前記学習用バイナリマップを示すことができる。

図５は、前記のような方法により学習されたアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを、本発明の一実施例によってテストするテスト装置を簡略に示した図面であり、図５を参照すると、テスト装置２０００はアテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークをテストするための各インストラクションが格納されたメモリ２１００と、メモリ２１００に格納された各インストラクションによってアテンションネットワークを利用してイメージ上の物体を検出する物体検出ネットワークをテストするための動作を遂行するプロセッサ２２００とを含むことができる。この際、メモリ２１００はオンデバイスストアデバイス（ｏｎ－ｄｅｖｉｃｅｓｔｏｒｅｄｅｖｉｃｅ）であり得るが、これに限定されるわけではない。

具体的には、テスト装置２０００は、典型的にコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）及びコンピュータソフトウェア（即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）の組合せを利用して所望のシステム性能を達成するものであり得る。

このように構成された本発明の一実施例において、テスト装置２０００によって、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法を図６を参照して説明すると次の通りである。

以下の説明では、図２乃至図３を参照した説明から容易に理解可能な部分に対しては詳細な説明を省略する。

また、以下で説明されるテスト装置及び物体検出ネットワークは、自律走行自動車、自律運行飛行体、自律動作ロボットなどのように物体検出を遂行するデバイスにオンボードされ得、デバイス内でオンデバイスラーニングするように構成され得る。

まず、アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークは、前記図２及び図３を参照して説明した学習方法により学習された状態であり得る。

即ち、学習装置１０００によって前記学習イメージが特徴抽出ネットワーク１２１０に入力されることにより、特徴抽出ネットワーク１２１０によって前記学習イメージがコンボリューション演算されて前記学習用特徴マップが出力され、前記学習用特徴マップがアテンションネットワーク１２２０に入力されることにより、アテンションネットワーク１２２０によって前記学習用特徴マップに対応する前記学習用予測マップと、前記学習用特徴マップにおける前記学習用物体の密度に対応する前記学習用アテンションマップと、が出力され、前記学習用特徴マップと前記学習用アテンションマップとがコンカチネーションレイヤ１２３０に入力されることにより、コンカチネーションレイヤ１２３０によって前記学習用特徴マップと前記学習用アテンションマップとがコンカチネートされて前記学習用アテンショナル特徴マップが出力され、前記学習用アテンショナル特徴マップがＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）１２４０に入力されることにより、ＲＰＮ１２４０によって前記学習用アテンショナル特徴マップ上における前記学習用物体候補に対する前記学習用候補ボックスが出力され、前記学習用候補ボックスがバイナリコンバータ１２７０に入力されることにより、バイナリコンバータ１２７０によって前記学習用候補ボックスが前記学習用バイナリマップに変換され、前記学習用候補ボックスと前記学習用アテンショナル特徴マップとがＲＯＩプーリングレイヤ１２５０に入力されることにより、ＲＯＩプーリングレイヤ１２５０によって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域がプーリングされて前記学習用プーリング済み特徴マップが生成され、前記学習用プーリング済み特徴マップが検出ネットワーク１２６０に入力されることにより、検出ネットワーク１２６０によって前記学習用プーリング済み特徴マップがラーニング演算されて前記学習用候補ボックスのそれぞれに対応する前記学習用物体検出情報が生成され、前記学習用物体検出情報とこれに対応する物体の原本正解とを参照して生成された前記物体ロスを利用したバックプロパゲーションを通じて特徴抽出ネットワーク１２１０及び検出ネットワーク１２６０のうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとこれに対応するＲＰＮ原本正解とを参照して生成された前記ＲＰＮロスを利用したバックプロパゲーションを通じてＲＰＮ１２４０を学習させるプロセス、前記学習用バイナリマップと前記学習用予測マップとを参照して生成された前記学習用クロスエントロピーロスを利用したバックプロパゲーションを通じてアテンションネットワーク１２２０を学習させるプロセスのうち少なくとも一部を遂行した状態であり得る。

このような方法によりアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークが学習された状態で、テスト映像が獲得されると、テスト装置２０００はテスト映像のうち現在のフレームに対応する現在のイメージを特徴抽出ネットワーク１２１０に入力することで特徴抽出ネットワーク１２１０をもって現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させることができる。この際、前記現在の特徴マップのボリュームはＫ×Ｈ×Ｗであり得、Ｋは、前記現在の特徴マップのチャンネルの個数、Ｈは、前記現在の特徴マップの高さ（ｈｅｉｇｈｔ）、Ｗは、前記現在の特徴マップの幅（ｗｉｄｔｈ）であり得る。

それから、テスト装置２０００は、前記テスト映像のうちネクストフレームに関するアテンショナルネットワーク１２２０の連続学習のために前記現在の特徴マップをメモリ２１００に格納し、前記現在のフレームに関するアテンショナルネットワーク１２２０の連続学習のために前記メモリ２１００に格納しておいた以前のフレームに対応する以前の特徴マップと、前記現在の特徴マップをアテンションネットワーク１２２０に入力することでアテンションネットワーク１２２０をもって前記以前の特徴マップに対応する現在－以前のソフト予測マップと、前記現在の特徴マップに対応する現在の予測マップ及び現在のソフト予測マップ、そして前記現在の特徴マップにおける現在の物体の密度に対応する現在のアテンションマップと、を出力させることができ、前記ネクストフレームに関するアテンショナルネットワーク１２２０の連続学習のために前記現在のソフト予測マップを前記メモリ２１００に格納することができる。

この際、図７を参照すると、アテンションネットワーク１２２０は少なくとも一つのコンボリューションレイヤ１２２１を通じて前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第１サブ特徴マップと現在の第１サブ特徴マップとをそれぞれ生成し、第１の１ｘ１コンボリューションレイヤ１２２２を通じて前記以前の第１サブ特徴マップと前記現在の第１サブ特徴マップとをそれぞれ１ｘ１コンボリューション演算して以前の第２サブ特徴マップと現在の第２サブ特徴マップとをそれぞれ生成する。この際、第１の１ｘ１コンボリューションレイヤ１２２２はｋ個のカーネルを利用して前記以前の第１サブ特徴マップと前記現在の第１サブ特徴マップとをそれぞれ１ｘ１コンボリューション演算することで前記以前の第２サブ特徴マップと前記現在の第２サブ特徴マップとのそれぞれがｋ個のチャンネルを有するようにすることができ、ｋを前記以前の特徴マップ及び前記現在の特徴マップのチャンネルの個数と同一にすることで前記以前の第２サブ特徴マップと前記現在の第２サブ特徴マップのチャンネルの個数が前記以前の特徴マップ及び前記現在の特徴マップのチャンネルの個数と同一となるようにすることができる。即ち、前記以前の第２サブ特徴マップと前記現在の第２サブ特徴マップとのボリュームはＫ×Ｈ×Ｗとなり得る。

そして、アテンションネットワーク１２２０は、前記現在の第２サブ特徴マップにシグモイド関数を適用して前記現在の第２サブ特徴マップに対応する前記現在のアテンションマップを出力することができる。

この際、前記現在のアテンションマップは、前記現在のイメージ上に位置する前記現在の物体の密度を示すマップであり得、前記現在のイメージ上において情報量の多い特定の領域をフォーカシングしたものであり得る。

また、アテンションネットワーク１２２０はＲｅＬＵ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）１２２３を通じて前記以前の第２サブ特徴マップと前記現在の第２サブ特徴マップとにそれぞれＲｅＬＵ関数を適用することによって特徴化した以前の第２サブ特徴マップと特徴化した現在の第２サブ特徴マップとをそれぞれ生成し、第２の１ｘ１コンボリューションレイヤ１２２４を通じて前記特徴化した以前の第２サブ特徴マップと前記特徴化した現在の第２サブ特徴マップとをそれぞれ１ｘ１コンボリューション演算して以前の第３サブ特徴マップと現在の第３サブ特徴マップとをそれぞれ生成することができる。この際、第２の１ｘ１コンボリューションレイヤ１２２４は一つのカーネルを利用して前記以前の第２サブ特徴マップと前記現在の第２サブ特徴マップとをそれぞれ１ｘ１コンボリューション演算することで前記以前の第３サブ特徴マップと前記現在の第３サブ特徴マップとのそれぞれが１個のチャンネルを有するようにすることができる。即ち、前記以前の第３サブ特徴マップ、前記現在の第３サブ特徴マップ、前記現在の第３サブ特徴マップのボリュームは１×Ｈ×Ｗとなり得る。

それから、アテンションネットワーク１２２０は、前記以前の第３サブ特徴マップにソフトシグモイド関数を適用して前記現在－以前のソフト予測マップを生成することができ、前記現在の第３サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成することができ、前記現在の第３サブ特徴マップにソフトシグモイド関数を適用して前記現在のソフト予測マップを生成してメモリ２１００に格納することができる。

この際、ソフトシグモイド関数は次の数式のように示され得る。

前記で、σ（Ｚ）は、シグモイド関数であり、Ｚは入力値であり、Ｔは温度ハイパーパラメータ（ｔｅｍｐｅｒａｔｕｒｅｈｙｐｅｒｐａｒａｍｅｔｅ）であり得る。そして、温度ハイパーパラメータは、タスクの分類における予測コンフィデンスをキャリブレーションすることに使用され得、分布外（ｏｕｔ－ｏｆ－ｄｉｓｔｒｉｂｕｔｉｏｎ）の検出の問題に適用すると、分布内のサンプルと分布外のサンプルとのクラススコアにさらに差を付け、分布外のサンプルの区別が容易になるように補助する役割りをすることができる。

次に、再び図６を参照すると、テスト装置２０００は、前記現在の特徴マップと前記現在のアテンションマップとをコンカチネーションレイヤ１２３０に入力することでコンカチネーションレイヤ１２３０をもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させることができる。

それから、テスト装置２０００は、前記現在のアテンショナル特徴マップをＲＰＮ１２４０に入力することで、ＲＰＮ１２４０をもって前記現在のアテンショナル特徴マップ上における現在の物体候補に対する現在の候補ボックスを出力させることができる。

そして、テスト装置２０００は、前記現在の候補ボックスをバイナリコンバータ１２７０に入力することで、バイナリコンバータ１２７０をもって前記現在の候補ボックスを現在のバイナリマップに変換させることができる。

また、テスト装置２０００は、前記現在のアテンショナル特徴マップと現在の候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤ１２５０に入力することで、ＲＯＩプーリングレイヤ１２５０をもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させることができ、前記現在のプーリング済み特徴マップを検出ネットワーク１２６０に入力することで、検出ネットワーク１２６０をもって前記現在のプーリング済み特徴マップをラーニング演算、一例として、ＦＣ演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させることができる。

次に、図７を参照すると、テスト装置２０００は、前記現在の予測マップと、前記現在のバイナリマップとをクロス－蒸留ロスレイヤ１２８０に入力することでクロス－蒸留ロスレイヤ１２８０をもって現在のクロスエントロピーロスを獲得させ、前記現在のフレームに関するアテンショナルネットワーク１２２０の連続学習のために前記メモリ２１００に格納しておいた以前のフレームに対応する以前のソフト予測マップと前記現在－以前のソフト予測マップとをクロス－蒸留ロスレイヤ１２８０に入力することで前記クロス－蒸留ロスレイヤ１２８０をもって蒸留ロスを獲得させ、前記現在のクロスエントロピーロスと前記蒸留ロスとを利用したバックプロパゲーションを通じて前記アテンションネットワーク１２２０の連続学習を遂行することができる。

この際、アテンションネットワーク１２２０の連続学習を遂行するためのトータルロスは次の数式のように示され得る。

前記で、σ（Ｚ_c）は、現在の予測マップを示し、

は、現在－以前のソフト予測マップを示し、Ｙ_cは、現在のバイナリマップを示し、Ｙ_pは、以前のソフト予測マップを示し、Ｌ_ce（σ（Ｚ_c）,Ｙ_c）は、クロスエントロピーロスを示し、

は、蒸留ロスを示すことができる。

この際、前記蒸留ロスはアテンションネットワーク１２２０のオンデバイス連続学習の際、カタストロフィック忘却を防止することに使用され得る。

一方、このような方法により学習された物体検出ネットワークを利用してイメージ上の物体を検出する場合、アテンションネットワーク１２２０は物体検出とオンデバイス連続学習とを並行して遂行することによってテスト映像のフレームごとにアップデートされ得る。

このような方法によってアテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習及びテストすると、自律走行車両などのようなエンベディッドシステムの限定されたコンピューティングパワーで自律走行車両などが主に接する走行環境に対して集中的に学習させて検出ネットワークの性能を改善することに加え、カタストロフィック忘却の発生を防止することができる。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気－光メディア（Ｍａｇｎｅｔｏ－ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは、本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる方法において、
（ａ）学習装置が、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させる段階；
（ｂ）前記学習装置が、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させる段階；及び
（ｃ）前記学習装置が、（ｉ）前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、（ｉｉ）前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び（ｉｉｉ）前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行する段階；
を含む方法。
前記（ａ）段階で、
前記学習装置は、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第１サブ特徴マップを生成させ、前記学習用第１サブ特徴マップを１ｘ１コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第２サブ特徴マップを生成させ、前記学習用第２サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第２サブ特徴マップにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する学習用第３サブ特徴マップを生成させ、前記学習用第３サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる、請求項１に記載の方法。
前記（ａ）段階で、
前記学習装置は、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる、請求項１に記載の方法。
前記学習装置は、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる、請求項１に記載の方法。
アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストする方法において、
（ａ）学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、テスト装置が、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納する段階；
（ｂ）前記テスト装置が、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在－以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記ＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させる段階；及び
（ｃ）前記テスト装置が、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在－以前のソフト予測マップを参照して生成された蒸留ロスとを利用して前記アテンションネットワークを学習させる段階；
を含む方法。
前記（ｂ）段階で、
前記テスト装置は、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第１サブ特徴マップと現在の第１サブ特徴マップとをそれぞれ生成させ、前記以前の第１サブ特徴マップと前記現在の第１サブ特徴マップとのそれぞれを１ｘ１コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第２特徴マップと現在の第２サブ特徴マップとをそれぞれ生成させ、前記現在の第２サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第２サブ特徴マップと現在の第２サブ特徴マップとのそれぞれにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する以前の第３サブ特徴マップと現在の第３サブ特徴マップとをそれぞれ生成させ、前記現在の第３サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第３サブ特徴マップと前記現在の第３サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在－以前のソフト特徴マップと前記現在のソフト予測マップとを生成させる、請求項５に記載の方法。
前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数である、請求項６に記載の方法。
前記（ｂ）段階で、
前記テスト装置は、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させる、請求項５に記載の方法。
前記テスト装置は、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させる、請求項５に記載の方法。
アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークを学習させる学習装置において、
インストラクションを格納する一つ以上のメモリ；及び
前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、
（Ｉ）前記プロセッサが、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させるプロセス；（ＩＩ）前記プロセッサが、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させるプロセス；及び（ＩＩＩ）前記プロセッサが、（ｉ）前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、（ｉｉ）前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び（ｉｉｉ）前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行するプロセスを遂行する、学習装置。
前記（Ｉ）プロセスで、
前記プロセッサが、前記アテンションネットワークをもって、前記学習用特徴マップを少なくとも一回コンボリューション演算して学習用第１サブ特徴マップを生成させ、前記学習用第１サブ特徴マップを１ｘ１コンボリューション演算して前記学習用特徴マップと同一のチャンネルを有する学習用第２サブ特徴マップを生成させ、前記学習用第２サブ特徴マップにシグモイド関数を適用して前記学習用アテンションマップを生成させ、前記学習用第２サブ特徴マップにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する学習用第３サブ特徴マップを生成させ、前記学習用第３サブ特徴マップにシグモイド関数を適用して前記学習用予測マップを生成させる、請求項１０に記載の学習装置。
前記（Ｉ）プロセスで、
前記プロセッサが、前記コンカチネーションレイヤをもって、前記学習用特徴マップと前記学習用アテンションマップとの要素ごとの積を計算して学習用インターミディエイトアテンションマップを生成させ、前記学習用特徴マップと前記インターミディエイトアテンションマップとの要素ごとの和を計算して前記学習用アテンショナル特徴マップを生成させる、請求項１０に記載の学習装置。
前記プロセッサが、前記学習用候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記学習用候補ボックスをバイナリ化した後、前記学習用特徴マップのサイズにリサイズして前記学習用バイナリマップを生成させる、請求項１０に記載の学習装置。
アテンションマップを利用してイメージ上の物体を検出する物体検出ネットワークをテストするテスト装置において、
インストラクションを格納する一つ以上のメモリ；及び
前記インストラクションを遂行するように設定された一つ以上のプロセッサを含み、
（Ｉ）学習装置により、学習イメージを特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記学習イメージを少なくとも一回コンボリューション演算して学習用特徴マップを出力させ、前記学習用特徴マップをアテンションネットワークに入力することで前記アテンションネットワークをもって前記学習用特徴マップに対応する学習用予測マップ及び前記学習用特徴マップの学習用物体の密度に対応する学習用アテンションマップを出力させ、前記学習用特徴マップと前記学習用アテンションマップとをコンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記学習用特徴マップと前記学習用アテンションマップとをコンカチネートして学習用アテンショナル特徴マップを出力させ、前記学習用アテンショナル特徴マップをＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記学習用アテンショナル特徴マップ上の学習用物体に対応する学習用候補ボックスを出力させ、前記学習用アテンショナル特徴マップと前記学習用候補ボックスとをＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記学習用アテンショナル特徴マップ上で前記学習用候補ボックスのそれぞれに対応する領域をプーリングして学習用プーリング済み特徴マップを生成させ、前記学習用プーリング済み特徴マップを検出ネットワークに入力することで前記検出ネットワークをもって前記学習用プーリング済み特徴マップをラーニング演算して前記学習用候補ボックスのそれぞれに対応する学習用物体検出情報を生成させ、前記学習用物体検出情報と物体の原本正解とを参照して生成された物体ロスを利用して前記検出ネットワーク及び前記特徴抽出ネットワークのうち少なくとも一つを学習させるプロセス、前記学習用候補ボックスとＲＰＮ原本正解とを参照して生成されたＲＰＮロスを利用して前記ＲＰＮを学習させるプロセス、及び前記学習用予測マップと前記学習用候補ボックスとをバイナリ化した学習用バイナリマップを参照して生成されたクロスエントロピーロスを利用して前記アテンションネットワークを学習させるプロセスのうち少なくとも一つを遂行した状態で、テスト映像が獲得されると、前記プロセッサが、前記テスト映像における現在のフレームに対応する現在のイメージを前記特徴抽出ネットワークに入力することで前記特徴抽出ネットワークをもって前記現在のイメージを少なくとも一回コンボリューション演算して現在の特徴マップを出力させ、前記現在の特徴マップをメモリに格納するプロセス；（ＩＩ）前記プロセッサが、前記メモリに格納された前記テスト映像における以前のフレームに対応する以前のイメージの以前の特徴マップと、前記現在の特徴マップとを前記アテンションネットワークに入力することで前記アテンションネットワークをもって前記以前の特徴マップに対応する現在－以前のソフト予測マップ、前記現在の特徴マップに対応する現在のソフト予測マップ及び現在の予測マップ、及び前記現在の特徴マップの現在の物体の密度に対応する現在のアテンションマップを出力させ、前記現在のソフト予測マップを前記メモリに格納し、前記現在の特徴マップと前記現在のアテンションマップとを前記コンカチネーションレイヤに入力することで前記コンカチネーションレイヤをもって前記現在の特徴マップと前記現在のアテンションマップとをコンカチネートして現在のアテンショナル特徴マップを出力させ、前記現在のアテンショナル特徴マップを前記ＲＰＮ（ｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋ）に入力することで前記ＲＰＮをもって前記現在のアテンショナル特徴マップ上の現在の物体に対応する現在の候補ボックスを出力させ、前記現在のアテンショナル特徴マップと前記現在の候補ボックスとを前記ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）プーリングレイヤに入力することで前記ＲＯＩプーリングレイヤをもって前記現在のアテンショナル特徴マップ上で前記現在の候補ボックスのそれぞれに対応する領域をプーリングして現在のプーリング済み特徴マップを生成させ、前記現在のプーリング済み特徴マップを前記検出ネットワークに入力することで前記検出ネットワークをもって前記現在のプーリング済み特徴マップをラーニング演算して前記現在の候補ボックスのそれぞれに対応する現在の物体検出情報を生成させるプロセス；及び（ＩＩＩ）前記プロセッサが、前記現在の予測マップと前記現在の候補ボックスとをバイナリ化した現在のバイナリマップを参照して生成された現在のクロスエントロピーロスと、前記メモリに格納された前記テスト映像における前記以前のフレームに対応する前記以前のイメージの以前のソフト予測マップ及び前記現在－以前のソフト予測マップを参照して生成された蒸留ロスと、を利用して前記アテンションネットワークを学習させるプロセスを遂行するテスト装置。
前記（ＩＩ）プロセスで、前記プロセッサが、前記アテンションネットワークをもって、前記以前の特徴マップと前記現在の特徴マップとのそれぞれを少なくとも一回コンボリューション演算して以前の第１サブ特徴マップと現在の第１サブ特徴マップとをそれぞれ生成させ、前記以前の第１サブ特徴マップと前記現在の第１サブ特徴マップとのそれぞれを１ｘ１コンボリューション演算して前記現在の特徴マップと同一の個数のチャンネルを有する以前の第２特徴マップと現在の第２サブ特徴マップとをそれぞれ生成させ、前記現在の第２サブ特徴マップにシグモイド関数を適用して前記現在のアテンションマップを生成させ、前記以前の第２サブ特徴マップと現在の第２サブ特徴マップとのそれぞれにＲｅＬＵ関数を適用した後、１ｘ１コンボリューション演算して１個のチャンネルを有する以前の第３サブ特徴マップと現在の第３サブ特徴マップとをそれぞれ生成させ、前記現在の第３サブ特徴マップにシグモイド関数を適用して前記現在の予測マップを生成させ、前記以前の第３サブ特徴マップと前記現在の第３サブ特徴マップとのそれぞれにソフトシグモイド関数を適用して前記現在－以前のソフト特徴マップと前記現在のソフト予測マップとを生成させる、請求項１４に記載のテスト装置。
前記ソフトシグモイド関数は、入力値を予め設定されたハイパーパラメータで割った値を前記シグモイド関数に入力するアクティベーション関数である、請求項１５に記載のテスト装置。
前記（ＩＩ）プロセスで、
前記プロセッサが、前記コンカチネーションレイヤをもって、前記現在の特徴マップと前記現在のアテンションマップとの要素ごとの積を計算して現在のインターミディエイトアテンションマップを生成させ、前記現在の特徴マップと前記現在のインターミディエイトアテンションマップとの要素ごとの和を計算して前記現在のアテンショナル特徴マップを生成させる、請求項１４に記載のテスト装置。
前記プロセッサが、前記現在の候補ボックスをバイナリコンバータに入力することで前記バイナリコンバータをもって前記現在の候補ボックスをバイナリ化した後、前記現在の特徴マップのサイズにリサイズして前記現在のバイナリマップを生成させる、請求項１４に記載のテスト装置。