JP7166423B1

JP7166423B1 - 弱教師あり客体認識装置及び方法

Info

Publication number: JP7166423B1
Application number: JP2021192584A
Authority: JP
Inventors: ランビュン，ヘ; イ，ウォンヨン; キ，ミンソン; イ，ジェウク; パク，スンホ
Original assignee: University Industry Foundation UIF of Yonsei University
Current assignee: University Industry Foundation UIF of Yonsei University
Priority date: 2021-09-27
Filing date: 2021-11-26
Publication date: 2022-11-07
Anticipated expiration: 2041-11-26
Also published as: KR102583518B1; KR20230044649A; JP2023048062A; US20230098817A1; US12026909B2

Abstract

【課題】イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出できる弱教師あり客体認識装置及び方法を提供する。【解決手段】は、入力イメージに対する第１コンボリューション演算を実行してフィーチャーマップ（Ｘ）を生成するフィーチャーマップ生成部と、（Ｘ）でアテンションマップ（Ａ）を生成し、（Ａ）を介して入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成する削除フィーチャーマップ生成部と、（Ｘ）及び（－Ｘ）に対する第２コンボリューション演算を実行して最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）を生成する最終マップ生成部と、（Ｆ）及び（－Ｆ）に基づいて、入力イメージのフォアグラウンド客体に対する対照ガイドを決定する対照ガイド決定部と、を含む。【選択図】図２

Description

本発明は、客体認識技術に係り、より詳細には、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）学習に基づいて、イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出することができる弱教師あり客体認識装置及び方法に関する。

客体認識（ＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）は、イメージ上の客体を識別するために、イメージ内の単一客体に対する分類及び位置検出するコンピュータビジョン技術である。ＣＮＮのようなディープラーニングモデルは、客体認識のために当該客体の固有の特徴を自動で学習するのに使用される。

ディープラーニングを介した客体認識方法は、既に作られたデータセットと、その中に含まれている客体の位置に対する実際の情報を共に学習する方法で設計されているが、このようなディープラーニング学習モデルを完全教師あり学習（Ｆｕｌｌｙｓｕｐｅｒｖｉｓｅｄ）方法という。完全教師あり学習方法を介した客体の位置検出方法は、性能が優れているものの、客体の位置に対する実際の情報を学習過程に必ず含まなければならないというデメリットがあるが、そのため、時間が経過するほど多様なデータを学習しながら客体の位置に対するラベルを作るのに多くの時間を費やさなければならないという問題がある。

そこで、最近は、完全教師あり学習方法の他に、弱教師あり学習（Ｗｅａｋｌｙｓｕｐｅｒｖｉｓｅｄ）の方法を通じて多様な研究を行っている。弱教師あり学習とは、学習過程でイメージとそれに対するクラスラベルのみを学習させて、ディープラーニングの予測モデルを生成する方法である。完全教師あり学習と比べて、弱教師あり学習は客体の実際位置に対するラベルが必要ではないため、多くの人的、物的浪費を減らすことができるというメリットがある。

しかし、弱教師あり学習を介して客体認識をする既存の方法は、ＣＮＮにおける分類器がイメージをどのクラスに属するか分類するとき、最も特徴的な部分のみを見て判断して、この領域のみを認識するため、客体認識の効率が落ちるという問題がある。

韓国登録特許第１０－１８７９２０７号

本発明の一実施形態は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）学習に基づいて、イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出することができる弱教師あり客体認識装置及び方法を提供しようとする。

本発明の一実施形態は、客体のフォアグラウンド全体を認識してバックグラウンドを削除し、正確な客体の領域を検出することによって、客体認識の効率を高めることができる弱教師あり客体認識装置及び方法を提供しようとする。

本発明の一実施形態は、客体認識の性能を向上させることができるＡＥ（Ａｄｖｅｒｓａｒｉａｌｅｒａｓｉｎｇ）ベースの新たな弱教師あり客体認識（ＷＳＯＬ、ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）のフレームワークを提案する弱教師あり客体認識装置及び方法を提供しようとする。

実施形態のうち、弱教師あり客体認識装置は、入力イメージに対する第１コンボリューション演算を実行してフィーチャーマップ（Ｘ）を生成するフィーチャーマップ生成部と、前記フィーチャーマップ（Ｘ）でアテンションマップ（Ａ）を生成し、前記アテンションマップ（Ａ）を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成する削除フィーチャーマップ生成部と、前記フィーチャーマップ（Ｘ）及び前記削除フィーチャーマップ（－Ｘ）に対する第２コンボリューション演算を実行して最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成する最終マップ生成部と、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて、前記入力イメージのフォアグラウンド客体に対する対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定する対照ガイド決定部と、を含む。

前記削除フィーチャーマップ生成部は、前記フィーチャーマップ（Ｘ）をチャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）を介して、前記アテンションマップ（Ａ）を生成することができる。

前記削除フィーチャーマップ生成部は、前記アテンションマップ（Ａ）で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行することができる。

前記最終マップ生成部は、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）を介して、前記入力イメージで互いに異なる地域を活性化し、前記フォアグラウンド客体を背景と遠ざかるようにすることができる。

前記最終マップ生成部は、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、チャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）ベースのアテンションマップ（ＡＦ，－ＡＦ）を介して、フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及びバックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）を生成することができる。

前記最終マップ生成部は、前記フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及び前記バックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）に基づいて、前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を生成することができる。

前記最終マップ生成部は、前記前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び前記背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）を生成することができる。

前記最終マップ生成部は、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、第３コンボリューション演算を実行してキー、クエリー及びバリュー（ｋ，ｑ，ｖ）を生成し、前記キー、クエリー及びバリューを加重値マトリックス（Ｗ）でプロダクト演算して、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）の性能を向上させることができる。

前記対照ガイド決定部は、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて生成された多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）のうち、前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）それぞれの背景フィーチャーベクトル（Ｚｂｇ，－Ｚｂｇ）間の距離を拡大しながら、前記前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）間の距離を減少させるように前記対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定することができる。

実施形態のうち、弱教師あり客体認識方法は、入力イメージに対する第１コンボリューション演算を実行してフィーチャーマップ（Ｘ）を生成するフィーチャーマップ生成ステップと、前記フィーチャーマップ（Ｘ）でアテンションマップ（Ａ）を生成し、前記アテンションマップ（Ａ）を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成する削除フィーチャーマップ生成ステップと、前記フィーチャーマップ（Ｘ）及び前記削除フィーチャーマップ（－Ｘ）に対する第２コンボリューション演算を実行して最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成する最終マップ生成ステップと、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて、前記入力イメージのフォアグラウンド客体に対する対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定する対照ガイド決定ステップと、を含む。

前記削除フィーチャーマップ生成ステップは、前記フィーチャーマップ（Ｘ）をチャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）を介して、前記アテンションマップ（Ａ）を生成するステップ、及び前記アテンションマップ（Ａ）で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行するステップを含むことができる。

前記最終マップ生成ステップは、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、チャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）ベースのアテンションマップ（ＡＦ，－ＡＦ）を介して、フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及びバックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）を生成するステップと、前記フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及び前記バックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）に基づいて、前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を生成するステップと、前記前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び前記背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）を生成するステップと、を含むことができる。

前記最終マップ生成ステップは、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、第３コンボリューション演算を実行してキー（ｋ）、クエリー（ｑ）及びバリュー（ｖ）を生成し、前記キー（ｋ）、クエリー（ｑ）及びバリュー（ｖ）を加重値マトリックス（Ｗ）でプロダクト演算し、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）の性能を向上させることができる。

前記対照ガイド決定ステップは、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて生成された多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）のうち、前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）それぞれの背景フィーチャーベクトル（Ｚｂｇ，－Ｚｂｇ）間の距離を拡大しながら、前記前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）間の距離を減少させるように前記対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定することができる。

開示された技術は、次の効果を有することができる。但し、特定の実施形態が次の効果を全て含まなければならないとか、次の効果のみを含まなければならないという意味ではないので、開示する技術の権利範囲は、これによって制限されるものと理解されてはならない。

本発明の一実施形態に係る弱教師あり客体認識装置及び方法は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）学習に基づいて、イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出することができる。

本発明の一実施形態に係る弱教師あり客体認識装置及び方法は、客体のフォアグラウンド全体を認識してバックグラウンドを削除し、正確な客体の領域を検出することによって、客体認識の効率を高めることができる。

本発明の一実施形態に係る弱教師あり客体認識装置及び方法は、客体認識の性能を向上させることができるＡＥ（Ａｄｖｅｒｓａｒｉａｌｅｒａｓｉｎｇ）ベースの新たな弱教師あり客体認識（ＷＳＯＬ）のフレームワークを提案することができる。

本発明の一実施形態に係る弱教師あり客体認識装置のシステムの構成を説明する図である。図１の弱教師あり客体認識装置にあるプロセスの機能的構成を説明する図である。図２の弱教師あり客体認識装置で実行される弱教師あり客体認識の過程を説明するフローチャートである。本発明に係る弱教師あり客体認識のための全フレームワークを説明する図である。原本分岐と削除分岐のフィーチャーマップにおける活性化の変化を示す図である。前景及び背景フィーチャーマップを正規の埋め込み空間に投影させて、多次元のベクトルを生成する図である。本発明に係るＷＳＯＬのフレームワークのＩｍａｇｅＮｅｔ及びＣＵＢ－２００－２０１１データセットに対する定性的結果を示す図である。既存の方法に対して、本発明に係る弱教師あり客体認識の結果を示す例示図である。

本発明は、下記の研究課題もって支援を受けて出願されました。
［この発明を支援した国家研究開発事業］
［課題固有番号］１７１１１２６０８２
［課題番号］２０２０－０－０１３６１－００２
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］情報通信企画評価院
［研究事業名］情報通信放送革新人材養成（Ｒ＆Ｄ）
［研究課題名］人工知能大学院支援（延世大学校）
［寄与率］１／３
［課題実行機関名］延世大学校産学協力団
［研究期間］２０２１．０１．０１～２０２１．１２．３１
［この発明を支援した国家研究開発事業］
［課題固有番号］１７１１１３４１７７
［課題番号］２０１９Ｒ１Ａ２Ｃ２００３７６０
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］韓国研究財団
［研究事業名］中堅研究者支援事業
［研究課題名］特性情報自動生成を介しての初めて見る複合カテゴリーのイメージとビデオ生成及び認識のためのゼロショット学習技術研究
［寄与率］１／３
［課題実行機関名］延世大学校
［研究期間］２０２１．０３．０１～２０２２．０２．２８
［この発明を支援した国家研究開発事業］
［課題固有番号］１７１１１２５８４３
［課題番号］２０１８－０－００７６９－００４
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］情報通信企画評価院
［研究事業名］ＳＷコンピューティング産業源泉技術開発（Ｒ＆Ｄ、情報化）
［研究課題名］人工知能システムのためのニューロムピックコンピューティングＳＷプラットフォーム技術開発
［寄与率］１／３
［課題実行機関名］韓国電子通信研究院
［研究期間］２０２１．０１．０１～２０２１．１２．３１

本発明に関する説明は、構造的乃至機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明する実施形態により制限されるものと解釈されてはならない。すなわち、実施形態は、多様な変更が可能であり、様々な形態を有し得るので、本発明の権利範囲は、技術的思想を実現することができる均等物を含むものと理解されなければならない。また、本発明で提示した目的又は効果は、特定の実施形態がこれを全て含まなければならないとか、そのような効果のみを含まなければならないという意味ではないので、本発明の権利範囲は、これによって制限されるものと理解されてはならない。

一方、本出願で述べられる用語の意味は、次のように理解されなければならない。

「第１」、「第２」等の用語は、一つの構成要素を別の構成要素から区別するためのものであって、これらの用語により権利範囲が限定されてはならない。例えば、第１構成要素は、第２構成要素と名付けられてもよく、同様に第２構成要素も、第１構成要素と名付けられてもよい。

ある構成要素が別の構成要素に「連結されて」いると言及したときには、その別の構成要素に直接的に連結されていてもよいが、中間に別の構成要素が存在していてもよいと理解されなければならない。反面、ある構成要素が別の構成要素に「直接連結されて」いると言及されたときには、中間に別の構成要素が存在していないものと理解されなければならない。一方、構成要素間の関係を説明する別の表現、すなわち、「～間に」や「直ぐに～間に」、又は「～に隣り合う」や「～に直接隣り合う」等も同様に解釈されなければならない。

単数の表現は、文脈上明らかに異なる意味ではない限り、複数の表現を含むものと理解されなければならず、「含む」又は「有する」等の用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、又はこれらを組み合わせたものが存在することを指定しようとするものであり、一つ又はそれ以上の異なる特徴や数字、ステップ、動作、構成要素、部分品、又はこれらを組み合わせたものの存在又は付加の可能性を予め排除しないものと理解されなければならない。

各ステップにおいて、識別符号（例えば、ａ、ｂ、ｃ等）は、説明の便宜のために使用されるものであって、識別符号は各ステップの順序を説明するものではなく、各ステップは、文脈上明らかに特定の順序を記載していない以上、明記された順序と異なって生じ得る。すなわち、各ステップは、明記された順序と同じように生じることもあり、実質的に同時に行われることもあり、反対の順序通りに行われることもある。

本発明は、コンピュータが読み取ることができる記録媒体にコンピュータが読み取ることができるコードとして具現化されることができ、コンピュータが読み取ることができる記録媒体は、コンピュータシステムにより読み取られることができるデータが保存される全ての種類の記録装置を含む。コンピュータが読み取ることができる記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、光データ保存装置等がある。また、コンピュータが読み取ることができる記録媒体は、ネットワークで連結されたコンピュータシステムに分散され、分散方式でコンピュータが読み取ることができるコードが保存されて実行できる。

ここで使用する全ての用語は、特に定義しない限り、本発明が属する分野において通常の知識を有する者により一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致するものと解釈されなければならず、本出願で明らかに定義しない限り、理想的又は過度に形式的な意味を有するものと解釈できない。

図１は、本発明の一実施形態に係る弱教師あり客体認識装置のシステムの構成を説明する図である。

図１を参照すると、弱教師あり客体認識装置１００は、プロセッサ１１０、メモリ１３０、ユーザ入出力部１５０、及びネットワーク入出力部１７０を含むコンピューティングシステムで構成されることができる。

プロセッサ１１０は、弱教師あり客体認識装置１００が動作する過程における各ステップを処理するプロシージャを実行することができ、その過程全般で読み取られたり作成されるメモリ１３０を管理することができ、メモリ１３０にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールすることができる。プロセッサ１１０は、弱教師あり客体認識装置１００の動作全般を制御することができ、メモリ１３０、ユーザ入出力部１５０、及びネットワーク入出力部１７０と電気的に連結され、これらの間のデータの流れを制御することができる。プロセッサ１１０は、弱教師あり客体認識装置１００のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）として具現化されることができる。

メモリ１３０は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような不揮発性メモリとして具現化されて、弱教師あり客体認識装置１００に必要なデータ全般を保存するのに使用される補助記憶装置を含むことができ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような揮発性メモリとして具現化された主記憶装置を含むことができる。

ユーザ入出力部１５０は、ユーザの入力を受信するための環境、及びユーザに特定の情報を出力するための環境を含むことができる。例えば、ユーザ入出力部１５０は、タッチパッド、タッチスクリーン、画像キーボード又はポインティング装置のようなアダプターを含む入力装置及びモニター又はタッチスクリーンのようなアダプターを含む出力装置を含むことができる。一実施形態において、ユーザ入出力部１５０は、リモートアクセスを介してアクセスされるコンピューティング装置に該当し得、そのような場合、弱教師あり客体認識装置１００は、独立したサーバとして実行されることができる。

ネットワーク入出力部１７０は、ネットワークを介して外部装置又はシステムと連結するための環境を含み、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、及びＶＡＮ（ＶａｌｕｅＡｄｄｅｄＮｅｔｗｏｒｋ）等の通信のためのアダプターを含むことができる。

図２は、図１の弱教師あり客体認識装置にあるプロセスの機能的構成を説明する図である。

図２を参照すると、弱教師あり客体認識装置１００は、フィーチャーマップ生成部２１０、削除フィーチャーマップ生成部２３０、最終マップ生成部２５０、及び対照ガイド決定部２７０を含むことができ、これらは相互連結されることができる。

フィーチャーマップ生成部２１０は、入力イメージに対する第１コンボリューション演算を実行して、フィーチャーマップ（Ｘ）を生成することができる。フィーチャーマップ生成部２１０は、コンボリューション神経網（ＣＮＮ）構造で具現化され、イメージを通過させて、各クラスによるフィーチャーマップ（Ｘ）を生成することができる。

ＣＮＮ構造は、各レイヤーの入出力データの形状維持、複数のフィルタでイメージの特徴抽出及び学習、抽出したイメージの特徴を集めて強化するプーリング（ｐｏｏｌｉｎｇ）レイヤーで、一般の人工神経網よりも少ない学習パラメータを有する。ＣＮＮは、イメージの特徴抽出のために、入力データをフィルタが巡回してコンボリューションを計算し、その計算結果を用いてフィーチャーマップ（Ｆｅａｔｕｒｅｍａｐ）を生成する。フィーチャーマップは、原本イメージの位置情報を内包し得る。

削除フィーチャーマップ生成部２３０は、アテンションマップ（Ａ）を生成し、アテンションマップ（Ａ）を介して入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成することができる。削除フィーチャーマップ生成部２３０は、チャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）を介してアテンションマップ（Ａ）を生成することができる。一実施形態において、削除フィーチャーマップ生成部２３０は、フィーチャーマップ生成部２１０のバックボーンの中間でフィーチャーマップ（Ｘ）をチャンネル－ワイズプーリングを介してアテンションマップ（Ａｔｔｅｎｔｉｏｎｍａｐ）（Ａ）を生成することができる。削除フィーチャーマップ生成部２３０は、生成されたアテンションマップ（Ａ）で最も特徴的な部分に対するマスク（Ｍａｓｋ）を生成し、入力イメージに対するマスキング演算を実行することができる。削除フィーチャーマップ生成部２３０は、臨界値（θｄ）をアテンションマップ（Ａ）の最も高い値と掛けて、この値よりも大きい場合、最も特徴的なピクセル部分とみなして、該当ピクセル部分に対するマスクを生成することができる。削除フィーチャーマップ生成部２３０は、マスクを下記の［数１］を介して生成できる。

ここで、Ｍｐｉｘは、マスクに該当し、Ａは、アテンションマップに該当する。

削除フィーチャーマップ生成部２３０は、アテンションマップ（Ａ）で最も特徴的なピクセル部分を領域単位で拡張するために、ＳｘＳサイズのカーネルサイズ（ｋｅｒｎｅｌｓｉｚｅ）を有する最大プーリングレイヤー（ｍａｘｐｏｏｌｉｎｇｌａｙｅｒ）をマスク（Ｍｐｉｘ）に掛けて、領域別のマスク（Ｍ）を生成することができる。削除フィーチャーマップ生成部２３０は、生成された領域別のマスク（Ｍ）を元のフィーチャーマップ（Ｘ）に掛けて、削除フィーチャーマップ（－Ｘ）を生成することができる。

最終マップ生成部２５０は、フィーチャーマップ（Ｘ）及び削除フィーチャーマップ（－Ｘ）に対する第２コンボリューション演算を実行し、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成できる。一実施形態において、最終マップ生成部２５０は、フィーチャーマップ（Ｘ）及び削除フィーチャーマップ（－Ｘ）をバックボーンネットワークの残りのコンボリューションレイヤーに通過させて、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成できる。最終マップ生成部２５０は、学習が進められるほど削除フィーチャーマップ（－Ｘ）で削除領域が広がり、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）で客体の全領域をさらに活性化させることができる。

最終マップ生成部２５０は、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）を介して、入力イメージで互いに異なる地域を活性化し、フォアグラウンドの客体を背景と遠ざかるようにすることができる。最終マップ生成部２５０は、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）に対して、チャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）ベースのアテンションマップ（ＡＦ，－ＡＦ）を介して、前景マスク（Ｍｆｇ，－Ｍｆｇ）及び背景マスク（Ｍｂｇ，－Ｍｂｇ）を生成することができる。一実施形態において、最終マップ生成部２５０は、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）でチャンネル－ワイズプーリングを用いてアテンションマップ（ＡＦ，－ＡＦ）を生成し、それぞれのアテンションマップで臨界値を用いてマスクを生成し、前景と背景を分離することができる。ここで、最終マップ生成部２５０は、生成されたマスクを最終のフィーチャーマップ（Ｆ）に掛けて、前景フィーチャーマップ及び背景フィーチャーマップを生成することができる。最終マップ生成部２５０は、フォアグラウンドマスク及びバックグラウンドマスクを下記の［数２］を介して生成できる。

ここで、Ｍｆｇは、フォアグラウンドマスクに該当し、Ｍｂｇは、バックグラウンドマスクに該当し、ＡＦは、チャンネル－ワイズプーリングされたアテンションマップに該当する。τ_ｆｇ及びτ_ｂｇは、予め定義された臨界値である。

最終マップ生成部２５０は、フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及びバックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）に基づいて、前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を生成することができる。一実施形態において、最終マップ生成部２５０は、前景フィーチャーマップ及び背景フィーチャーマップを下記の［数３］を介して生成できる。

ここで、Ｆｆｇは、前景フィーチャーマップに該当し、Ｆｂｇは、背景フィーチャーマップに該当し、フィーチャーマップ（Ｆ）に各マスク（Ｍ）を掛けて生成される。

最終マップ生成部２５０は、前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）を生成することができる。一実施形態において、最終マップ生成部２５０は、生成された前景と背景のフィーチャーマップ（Ｆｆｇ，Ｆｂｇ，－Ｆｆｇ，－Ｆｂｇ）を正規の埋め込み空間に投影させて、１２８次元のベクトルを生成することができる。

最終マップ生成部２５０は、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）に対して、第３コンボリューション演算を実行してキー（ｋｅｙ）、クエリー（ｑｕｅｒｙ）及びバリュー（ｖａｌｕｅ）を生成し、キー、クエリー及びバリューを加重値マトリックス（Ｗ）でプロダクト演算し、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）の性能を向上させることができる。一実施形態において、最終マップ生成部２５０は、加重値マトリックス（Ｗ）をキー（ｋ）、クエリー（ｑ）間のホワイトニングドットプロダクト（ｗｈｉｔｅｎｅｄｄｏｔｐｒｏｄｕｃｔ）演算を介して生成することができ、加重値マトリックス（Ｗ）は、下記の［数４］で定義されることができる。

ここで、σは、ソフトマックス（ｓｏｆｔｍａｘ）関数であり、μは、各クエリー（ｑ）、キー（ｋ）内のピクセル（ｉ，ｊ）の平均値である。

最終マップ生成部２５０で最終生成される向上したフィーチャーマップ（Ｆ’）は、下記の［数５］を介して生成されることができる。

ここで、ｈは、バッチ正規化を伴う１ｘ１のコンボリューションレイヤーに該当する。

対照ガイド決定部２７０は、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）に基づいて、入力イメージの前景客体に対する対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定することができる。対照ガイド決定部２７０は、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）に基づいて生成された多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）のうち、前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）それぞれの背景フィーチャーベクトル（Ｚｂｇ，－Ｚｂｇ）間の距離を拡大しながら、前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）間の距離を減少させるように対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定することができる。一実施形態において、対照ガイド決定部２７０は、対照ガイドの損失（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅｌｏｓｓ）を用いて、前景フィーチャーベクトル（Ｚｆｇ）が前景削除フィーチャーベクトル（－Ｚｆｇ）と近づくように、背景フィーチャーベクトル（Ｚｂｇ）とは遠ざかるように学習し、前景削除フィーチャーベクトル（－Ｚｆｇ）も同様に前景フィーチャーベクトル（Ｚｆｇ）とは近づき、背景削除フィーチャーベクトル（－Ｚｂｇ）とは遠ざかるように学習できる。対照ガイドの損失は、下記の［数６］で定義されることができる。

ここで、

は、対照ガイドの損失に該当し、ｍは、マージンに該当する。

対照ガイドの損失は、対象客体で補完的に見つかった領域を活用し、４重関係（原本及び削除された分岐の前景及び背景フィーチャーマップ）を最適化することができる。従って、全客体を正しい範囲に見つけるようにガイドできる。

図３は、図２の弱教師あり客体認識装置で実行される弱教師あり客体認識の過程を説明するフローチャートである。

図３を参照すると、弱教師あり客体認識装置１００は、フィーチャーマップ生成部２１０を介して入力イメージに対する第１コンボリューション演算を実行してフィーチャーマップ（Ｘ）を生成することができる（ステップＳ３１０）。弱教師あり客体認識装置１００は、削除フィーチャーマップ生成部２３０を介してフィーチャーマップ（Ｘ）でアテンションマップ（Ａ）を生成し、アテンションマップ（Ａ）を介して入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成することができる（ステップＳ３３０）。弱教師あり客体認識装置１００は、最終マップ生成部２５０を介して、フィーチャーマップ（Ｘ）及び削除フィーチャーマップ（－Ｘ）に対する第２コンボリューション演算を実行して、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成することができる（ステップＳ３５０）。弱教師あり客体認識装置１００は、対照ガイド決定部２７０を介して、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）に基づいて、入力イメージの前景客体に対する対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定することができる（ステップＳ３７０）。

図４は、本発明に係る弱教師あり客体認識のための全フレームワークを説明する図である。

本発明は、弱教師あり客体認識のための既存の方法、ＣＡＭ（ｃｌａｓｓａｃｔｉｖａｔｉｏｎｍａｐｐｉｎｇ）や、ＨａＳ（Ｈｉｄｅ－ａｎｄＳｅｅｋ）、ＡＣｏＬ（ＡｄｖｅｒｓａｒｉａｌＣｏｍｐｌｅｍｅｎｔａｒｙＬｅｒａｎｉｎｇ）、ＡＤＬ（Ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄＤｒｏｐｏｕｔＬａｙｅｒ）、ＥＩＬ（ＥｒａｓｉｎｇＩｎｔｅｇｒａｔｅｄＬｅａｓｎｉｎｇ）等のＡＥ（ａｄｖｅｒｓａｒｉａｌｅｒａｓｉｎｇ）方法における性能低下を克服するために、ＡＥベースの新たなＷＳＯＬ（ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）のフレームワークを提案する。

図４で見るように、本発明に係るＷＳＯＬのフレームワーク４００は、ＳＲＤ（ＳｃｈｅｄｕｌｅｄＲｅｇｉｏｎＤｒｏｐ）構成４１０、ＣＧ（ＣｏｎｔｒａｓｔｉｖｅＧｕｉｄａｎｃｅ）構成４３０、ＰＮＬ（ＰａｉｒｗｉｓｅＮｏｎ－ＬｏｃａｌＢｌｏｃｋ）構成４５０の三つの核心要素からなり、分類ネットワークを活用し、クラスラベルのみ使用して、対照ガイドの損失と分類の損失で訓練する。

ＳＲＤ構成４１０は、領域－レベルに原本フィーチャーマップから最も区別される部分を漸進的に削除し、あまり有益ではない領域を効果的に見つけるようにネットワークを促進する。ＳＲＤ構成４１０は、削除分岐（Ｅｒａｓｅｄｂｒａｎｃｈ）の入力となる削除フィーチャーマップ（－Ｘ）を生成する。この分岐は、元の分岐（Ｏｒｉｇｉｎａｌｂｒａｎｃｈ）の加重値を共有する。ネットワークは、原本及び削除フィーチャーマップ（Ｘ，－Ｘ）を同時にフィード－フォワードし、最終のフィーチャーマップ（Ｆ，－Ｆ）を出力して、補完領域を探索する。

ＣＧ構成４３０は、二重－分岐の前景フィーチャーが共に引かれながら、各背景フィーチャーから遠ざかるように勧奨する。これは、モデルが背景と区別される前景の表現を学習するようにし、活性化が背景に拡張されることを防止する。

また、ＰＮＬ構成４５０は、フィーチャーマップのピクセル間の関係を学習してネットワークを加速化し、最も独特の領域の他の関連部分を見つける。ＰＮＬ構成４５０は、ピクセル関係間のコンテキスト情報（ｃｏｎｔｅｘｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）を学習して、向上したフィーチャーマップを生成する。向上したフィーチャーマップは、対照損失を計算するための対照ガイドに対する入力に提供する。対照ガイドの損失

は、活性化マップを背景に拡散させず、全体の客体領域を探索するようにネットワークをガイドする。

本発明に係るＷＳＯＬのフレームワーク４００をなす各構成について、以下でより具体的に説明する。

ＳＲＤ（ＳｃｈｅｄｕｌｅｄＲｅｇｉｏｎＤｒｏｐ）
敵対的削除を使用する既存のＷＳＯＬ方法は、ピクセルレベルで最も区別される部分を削除し、削除フィーチャーマップを生成する。しかし、ピクセルレベルのドロップのみ使用して最も有益な部分に隣接したピクセルを完全に除去することは難しい。このような残りの情報のピクセルは、削除された分岐が補完領域（すなわち、対象客体の区別が少ない部分）を見つけることを妨げる。差別化された領域をより効果的に除去するために、領域別の削除戦略を提案する。

まず、チャンネル－ワイズプーリングを介して、原本フィーチャーマップ（Ｘ）のアテンションマップ

を得る。それから、次のようにピクセルレベルの二進マスク

を生成する。

τ_ｄは、アテンションマップ（Ａ）の最も高い値と予め定義されたドロップ臨界値（θ_ｄ）との積で表す。

Ｍｐｉｘの各ピクセルをＳｘＳ二乗領域のサイズに拡張し、領域ドロップのマスク（Ｍ）を生成する。具体的に、（Ｓ，Ｓ）のカーネルサイズを有する最大のプーリング階層をＭｐｉｘに適用する。

最後に、削除フィーチャーマップ（－Ｘ）は、フィーチャーマップ（Ｘ）とマスク（Ｍ）との間のスペイシャル－ワイズマルチプリケーション（ｓｐａｔｉａｌ－ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）により生成される。フィーチャーマップ（Ｘ）と削除フィーチャーマップ

はいずれも加重値を共有するネットワークの以降のレイヤーに同時に供給される。また、固定されたドロップ臨界値（θ_ｄ）が不安定な性能を誘発することを観察した。削除分岐は、広い範囲で最も区別される部分を捨てるため（すなわち、地域レベルの下落）、初期の訓練ステップで分類するのに困難をきたす。この問題を解決するために、減少臨界値を１からθ_ｄまで線形的に減少させて、訓練を始める際に、二重分岐間の不一致を減らす。全般的に、ＳＲＤ構成４１０は、図５のように、削除領域を漸進的に増やし、区別が少ない領域への活性化を成功的に拡張する。

図５は、原本分岐と削除分岐のフィーチャーマップにおける活性化の変化を示す図である。

図５において、学習が進められるほど削除フィーチャーマップ

で削除領域が広がり、最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ

で客体の全領域をより活性化させる。

ＣＧ（ＣｏｎｔｒａｓｔｉｖｅＧｕｉｄａｎｃｅ）
対照学習は、肯定的な対を引き込み、否定的な対を押し出すことによって、意味のある表現を学習することを目標とする。同様に、この対照学習の概念を使用するために、図６のように前景を正の対で、背景を負の対で構成する。

図６は、前景及び背景フィーチャーマップを正規の埋め込み空間に投影させて、多次元のベクトルを生成する図である。

図６において、最終のフィーチャーマップ

の前景と背景は、それぞれ元のフィーチャーマップ（Ｘ）及び削除フィーチャーマップ

がある二重分岐でエンコーディングされる。チャンネル－ワイズプーリングを介して生成されたアテンションマップ（ＡＦ）の強度を臨界値に指定し、前景及び背景マスク（Ｍ_ｆｇ，Ｍ_ｂｇ）を生成する。それから、各マスクを掛けた前景及び背景フィーチャーマップ（Ｆ_ｆｇ，Ｆ_ｂｇ）を生成する。

ここで、τ_ｆｇ及びτ_ｂｇは、予め定義された臨界値である。各前景及び背景フィーチャーマップは、投影ヘッドを使用し、正規化された埋め込み空間に投影される。ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）活性化がある２個の１ｘ１コンボリューションレイヤーで構成され、それぞれの１２８次元のフィーチャーベクトル

を出力する。公式的に対照ガイドの損失は、次のように提供される。

ここで、ｍは、マージンを示す。損失関数は、背景間の距離を拡大しながらＺ_ｂｇ，

の表現間の距離を減らすように勧奨する。対象客体の全体範囲内で多様な補完前景をマイニングすることができる。

ＰＮＬ（ＰａｉｒｗｉｓｅＮｏｎ－ＬｏｃａｌＢｌｏｃｋ）
本発明では、ＰＮＬ構成４５０を使用し、最終のフィーチャーマップ

で対象客体領域に関するピクセル－別の関係を強化する。対照ガイド及び分類器に提供される向上したフィーチャーマップを生成する。フィーチャーマップ

は、クエリー、キー及びバリューをそれぞれ示す

に３つの１ｘ１コンボリューションレイヤーに投影される。加重値マトリックス

は、ｑ、ｋのホワイトニング内的演算により得た各ピクセル間の類似度を示す。

ここで、σは、ｓｏｆｔｍａｘ関数であり、μ_ｑ，μ_ｋは、それぞれｑ，ｋの各ピクセルｉ，ｊの空間の平均値である。その後、向上したフィーチャーマップ

は、次のように生成される。

ここで、ｈ（）は、バッチ正規化が伴われる１ｘ１コンボリューションレイヤーを示す。

ＰＮＬ構成４５０は、クエリーとキーピクセルとの間の正規化された差異を最適化し、クラス別領域の類似性を考慮し、参席する場所を学習する。従って、分類器及び対照ガイドに有益な端緒を提供する。

以下で、既存の方法を遥かに凌ぐ広範囲な実験を通じて、本発明で提案した新たなＷＳＯＬのフレームワーク４００の効率性を確認する。

実験
１）実験設定
データセット（Ｄａｔａｓｅｔｓ）
ＣＵＢ－２００－２０１１、ＩｍａｇｅＮｅｔの二つのベンチマークで提案された方法を評価し、訓練のためにイメージレベルのラベルのみ提供される。ＣＵＢ－２００－２０１１は、訓練セットのための５，９９４個のイメージと、テストセットのための５，７９４個のイメージで構成された２００種の鳥（ｂｉｒｄ）を含む。ＩｍａｇｅＮｅｔには、それぞれ訓練及び検証セットに対する１２０万、並びに５０，０００個のイメージが含まれた１，０００個のクラスがある。

評価指標
Ｔｏｐ－１ｌｏｃａｌｉｚａｔｉｏｎ（Ｔｏｐ－１Ｌｏｃ）、ＧＴ－ｋｎｏｗｎｌｏｃａｌｉｚａｔｉｏｎ（ＧＴ－Ｌｏｃ）及びＭａｘＢｏｘＡｃｃＶ２を活用して方法を評価する。Ｔｏｐ－１Ｌｏｃは、ＩｏＵ０．５以上の境界箱を含む正しく分類されたイメージの割合を正解値（ｇｒｏｕｎｄｔｒｕｔｈ）と共に示す。ＧＴ－Ｌｏｃは、ＩｏＵが５０％より大きい場合、予測された箱が正しいものとみなされる割合を測定する。ＭａｘＢｏｘＡｃｃＶ２は、境界箱を生成するための最適の臨界値を検索し、三つのＩｏＵ基準（０．３，０．５，０．７）で位置識別の性能を平均化する。

具現の細部情報
ＶＧＧ１６、ＩｎｃｅｐｔｉｏｎＶ３、ＲｅｓＮｅｔ５０の三つのバックボーンネットワークで方法を構築する。全てのネットワークは、ＩｍａｇｅＮｅｔの事前訓練された加重値をロードして訓練を始める。本発明のＰＮＬとＣＧは、分類器の前に挿入される。ドロップ臨界値θ_ｄをＣＵＢデータセットの場合は０．８、ＩｍａｇｅＮｅｔデータセットの場合は０．９に設定した。前景τ_ｆｇ及び背景τ_ｂｇの臨界値は、ＶＧＧ１６の場合、０．９、０．８に設定される。補完領域を抽出するために、最後のドロップ臨界値と共に予定された領域のドロップのみ活用する。

２）切り離す研究
提案された構成要素に対する切り離す研究は、ＣＵＢ－２００－２０１１のデータセットでＶＧＧ１６で実行される。

提案された各構成要素の効果
全体の対象客体を位置識別するために三つの構成要素を提案する。下記の表１は、フレームワークにおける個別要素の効率性を示す。

対照ガイド（ＣＧ）がない場合には、全体の設定よりもＭａｘＢｏｘＡｃｃＶ２の側面で６．１９％低い性能を達成し、特に、ＩｏＵ０．７で１２．３０％低下する。全体客体を位置識別するために、ネットワークに与えられたイメージの背景領域に対するガイドを提供することが必要である。削除フィーチャーマップ生成（ＳＲＤ）はまた、性能を３．３２％向上させる。フレームワークのＰＮＬを除いては、性能が２．９６％減少し、二つの要素に比べて性能低下が最も少ない。その結果、全ての構成要素を使用する際に最高の性能を示す。

ＳＲＤの位置及びサイズ
まず、削除位置が性能に及ぼす影響を分析する。下記の表２のように、ｃｏｎｖ４＿３のレイヤーの後にＳＲＤを挿入する際に、最も優れる性能を示す。しかし、初期のレイヤー（ｐｏｏｌ２，ｐｏｏｌ３）に位置したＳＲＤの場合、性能が少し低下する。以前の研究で議論したように、以前のレイヤーが一般機能を抽出し、フィーチャーマップでローカルに区別される部分（例えば、縁、角）を活性化するためである。

また、下記の表３で削除された領域のブロックサイズによる性能を調査した。ドロップ臨界値を０．８に、ブロックサイズを３に設定し、最上の性能を示した。原本フィーチャーマップで過度な情報を消すため、性能が低下する。

本発明のＳＲＤは、削除領域を漸進的に増加させるが、削除された分岐は、対象客体に対する充分な端緒なく対照ガイドの損失及び分類の損失を最適化するのに困難をきたすと考える。

既存の対照損失及び当社のＣＧ損失との比較
下記の表４は、ＣＧ損失を既存の対照損失（すなわち、ＩｎｆｏＮＣＥ損失）に代替した結果を示す。

実験の結果、本発明の方法は、ＩｎｆｏＮＣＥの損失を使用しても、７．７％の大きなマージンで、既存のＷＳＯＬの性能を依然として凌ぐことが示された。しかし、ＩｏＵ０．７で、本発明のｗ／ＣＧ（最後の行）よりも遥かに劣る。また、対照ガイドの損失がない本発明の性能は、ＩｏＵ０．７で深刻に低下する。これは、本発明の対照ガイドの損失が全体客体をうまくカバーするために、既存の対照損失よりもネットワークに適切なガイドを提供することを示す。また、対照学習（三番目の行）で二重分岐の効果も検証する。Ｏｕｒｓ＋は、原本フィーチャーマップの背景のみ負数サンプルとして使用する。削除フィーチャーマップの背景を捨てると、性能が落ちることを示す。結果として、削除フィーチャーマップの背景は、対象客体の境界内で活性化を拡張して、少なく区別される部分を見つけるのに重要な役割をする。

３）最新の方法との比較
ＭａｘＢｏｘＡｃｃＶ２、ＧＴ－ｋｎｏｗｎＬｏｃ及びＴｏｐ－１Ｌｏｃの側面で、ＣＵＢ－２００－２０１１及びＩｍａｇｅＮｅｔのデータセットに対するＷＳＯＬの最新の方法と、本発明の方法とを比較する。

ＭａｘＢｏｘＡｃｖ２．下記の表５で、本発明の方法は、三つのバックボーンに対するＭａｘＢｏｘＡｃｃＶ２の側面で、ＣＵＢ及びＩｍａｇｅＮｅｔのデータセットの別の全ての方法よりも性能に優れている。

本発明は、ＣＵＢ（＋１３．１％）とＩｍａｇｅＮｅｔ（＋１．６％）で目立つ改善を達成した。特に、本発明の方法は、ＣＵＢ－ＩｎｃｅｐｔｉｏｎＶ３のＩｎＣＡよりも１５．５％、ＩｍａｇｅＮｅｔ－ＶＧＧ１６のＭｉｎＭａｘＣＡＭよりも３．１％向上した。

ＧＴ－ｋｎｏｗｎＬｏｃ及びＴｏｐ－１Ｌｏｃ．下記の表６は、既存のマトリックスを使用した定量的結果を示す。

ＣＵＢ及びＩｍａｇｅＮｅｔのデータセットの全てで、本発明の方法は、ＧＴ－Ｌｏｃ、Ｔｏｐ－１Ｌｏｃに関する最先端の性能を達成する。

４）定性的結果
図７は、本発明に係るＷＳＯＬのフレームワークのＩｍａｇｅＮｅｔ及びＣＵＢ－２００－２０１１のデータセットに対する定性的結果を示す図面であって、実測の箱は実線で、予測の箱はその近傍の点線で表示した。

図７で、本発明の方法は、全体客体を正しく位置識別し、実際と比べて、厳格な境界箱を出力する。訓練ステップで、ＳＲＤ及び対照ガイドの損失を使用して背景領域を制限する。従って、本発明の方法は、少なく区別される部分に拡散されるだけでなく、背景で活性化を抑制する。

図８は、既存の方法に対して、本発明に係る弱教師あり客体認識の結果を示す例示図である。

図８に示すように、イメージに対する弱教師あり客体認識の既存の方法（ＡＣｏＬ，ＥＩＬ）は、客体の最も特徴的な部分の領域のみを認識するか、客体のより広い領域を認識するために、最も特徴的な部分を消した後に学習しても、背景まで認識して、広すぎる部分を認識するため、客体認識の正確度が落ちる。反面、本発明の方法（Ｏｕｒｓ）は、最も特徴的な部分の学習が進められるに従って、ますます広い領域を消すＳＲＤ（ＳｃｈｅｄｕｌｅｄＲｅｇｉｏｎＤｒｏｐ）、二重－分岐から抽出した最終のフィーチャーマップ及び最終の削除フィーチャーマップで互いに異なる地域を活性化し、各フィーチャーマップの前景と背景を分けて、前景同士は類似するようにし、背景とは遠ざかるようにし、前景と背景のフィーチャーを学習するＣＧ（ＣｏｎｔｒａｓｔｉｖｅＧｕｉｄａｎｃｅ）、ＣＧ及び分類器にさらに向上したフィーチャーマップを提供するＰＮＬ（ＰａｉｒｗｉｓｅＮｏｎ－Ｌｏｃａｌ）ブロックを介して、客体の前景全体を認識して背景を抑制し、正確な客体の領域を検出することができる。

本出願の好ましい実施形態を参照として説明したが、当該技術分野の熟練した通常の技術者は、下記の特許請求の範囲に記載された本発明の思想及び領域から外れない範囲内で、本出願を多様に修正及び変更させ得ることを理解できるはずである。

１００弱教師あり客体認識装置
１１０プロセッサ
１３０メモリ
１５０ユーザ入出力部
１７０ネットワーク入出力部
２１０フィーチャーマップ生成部
２３０削除フィーチャーマップ生成部
２５０最終マップ生成部
２７０対照ガイド決定部
４００本発明で提案したＷＳＯＬのフレームワーク
４１０ＳＲＤ（Ｓｃｈｅｄｕｌｅｄｒｅｇｉｏｎｄｒｏｐ）構成
４３０ＣＧ（Ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）構成
４５０ＰＮＬ（Ｐａｉｒ－ｗｉｓｅＮｏｎ－Ｌｏｃａｌ）構成

Claims

入力イメージに対する第１コンボリューション演算を実行してフィーチャーマップ（Ｘ）を生成するフィーチャーマップ生成部と、
前記フィーチャーマップ（Ｘ）でアテンションマップ（Ａ）を生成し、前記アテンションマップ（Ａ）を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成する削除フィーチャーマップ生成部と、
前記フィーチャーマップ（Ｘ）及び前記削除フィーチャーマップ（－Ｘ）に対する第２コンボリューション演算を実行して最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成する最終マップ生成部と、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて、前記入力イメージのフォアグラウンド客体に対する対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定する対照ガイド決定部と、を含む、ことを特徴とする弱教師あり客体認識装置（ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎＡｐｐａｒａｔｕｓ）。
前記削除フィーチャーマップ生成部は、
前記フィーチャーマップ（Ｘ）をチャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）を介して、前記アテンションマップ（Ａ）を生成する、ことを特徴とする請求項１に記載の弱教師あり客体認識装置。
前記削除フィーチャーマップ生成部は、
前記アテンションマップ（Ａ）で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行する、ことを特徴とする請求項２に記載の弱教師あり客体認識装置。
前記最終マップ生成部は、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）を介して、前記入力イメージで互いに異なる地域を活性化し、前記フォアグラウンド客体を背景と遠ざかるようにする、ことを特徴とする請求項１に記載の弱教師あり客体認識装置。
前記最終マップ生成部は、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、チャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）ベースのアテンションマップ（ＡＦ，－ＡＦ）を介して、フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及びバックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）を生成する、ことを特徴とする請求項４に記載の弱教師あり客体認識装置。
前記最終マップ生成部は、
前記フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及び前記バックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）に基づいて、前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を生成する、ことを特徴とする請求項５に記載の弱教師あり客体認識装置。
前記最終マップ生成部は、
前記前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び前記背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）を生成する、ことを特徴とする請求項６に記載の弱教師あり客体認識装置。
前記最終マップ生成部は、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、第３コンボリューション演算を実行してキー、クエリー及びバリュー（ｋ，ｑ，ｖ）を生成し、前記キー、クエリー及びバリューを加重値マトリックス（Ｗ）でプロダクト演算して、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）の性能を向上させる、ことを特徴とする請求項４に記載の弱教師あり客体認識装置。
前記対照ガイド決定部は、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて生成された多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）のうち、前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）それぞれの背景フィーチャーベクトル（Ｚｂｇ，－Ｚｂｇ）間の距離を拡大しながら、前記前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）間の距離を減少させるように、前記対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定する、ことを特徴とする請求項１に記載の弱教師あり客体認識装置。
入力イメージに対する第１コンボリューション演算を実行してフィーチャーマップ（Ｘ）を生成するフィーチャーマップ生成ステップと、
前記フィーチャーマップ（Ｘ）でアテンションマップ（Ａ）を生成し、前記アテンションマップ（Ａ）を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ（－Ｘ）を生成する削除フィーチャーマップ生成ステップと、
前記フィーチャーマップ（Ｘ）及び前記削除フィーチャーマップ（－Ｘ）に対する第２コンボリューション演算を実行して最終のフィーチャーマップ（Ｆ）及び最終の削除フィーチャーマップ（－Ｆ）をそれぞれ生成する最終マップ生成ステップと、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて前記入力イメージのフォアグラウンド客体に対する対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定する対照ガイド決定ステップと、を含む、ことを特徴とする弱教師あり客体認識方法（ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎＭｅｔｈｏｄ）。
前記削除フィーチャーマップ生成ステップは、
前記フィーチャーマップ（Ｘ）をチャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）を介して、前記アテンションマップ（Ａ）を生成するステップ、及び
前記アテンションマップ（Ａ）で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行するステップを含む、ことを特徴とする請求項１０に記載の弱教師あり客体認識方法。
前記最終マップ生成ステップは、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、チャンネル－ワイズプーリング（ｃｈａｎｎｅｌ－ｗｉｓｅｐｏｏｌｉｎｇ）ベースのアテンションマップ（ＡＦ，－ＡＦ）を介して、フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及びバックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）を生成するステップと、
前記フォアグラウンドマスク（Ｍｆｇ，－Ｍｆｇ）及び前記バックグラウンドマスク（Ｍｂｇ，－Ｍｂｇ）に基づいて、前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を生成するステップと、
前記前景フィーチャーマップ（Ｆｆｇ，－Ｆｆｇ）及び前記背景フィーチャーマップ（Ｆｂｇ，－Ｆｂｇ）を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）を生成するステップと、を含む、ことを特徴とする請求項１０に記載の弱教師あり客体認識方法。
前記最終マップ生成ステップは、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に対して、第３コンボリューション演算を実行してキー（ｋ）、クエリー（ｑ）及びバリュー（ｖ）を生成し、前記キー（ｋ）、クエリー（ｑ）及びバリュー（ｖ）を加重値マトリックス（Ｗ）でプロダクト演算し、前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）の性能を向上させる、ことを特徴とする請求項１０に記載の弱教師あり客体認識方法。
前記対照ガイド決定ステップは、
前記最終のフィーチャーマップ（Ｆ）及び前記最終の削除フィーチャーマップ（－Ｆ）に基づいて生成された多次元のフィーチャーベクトル（Ｚｆｇ，Ｚｂｇ，－Ｚｆｇ，－Ｚｂｇ）のうち、前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）それぞれの背景フィーチャーベクトル（Ｚｂｇ，－Ｚｂｇ）間の距離を拡大しながら、前記前景フィーチャーベクトル（Ｚｆｇ，－Ｚｆｇ）間の距離を減少させるように前記対照ガイド（ｃｏｎｔｒａｓｔｉｖｅｇｕｉｄａｎｃｅ）を決定する、ことを特徴とする請求項１０に記載の弱教師あり客体認識方法。