JP2023046368A

JP2023046368A - Ｃａｍ基盤の弱教師あり学習物体探知装置及び方法

Info

Publication number: JP2023046368A
Application number: JP2021196551A
Authority: JP
Inventors: ランビュン，ヘ; Hye Ran Byun; イ，サンヒョク; Sanghuk Lee; ムン，チョルヒュン; Cheolhyun Mun; イ，ピルヒョン; Pilhyeon Lee; イ，ジェウク; Jewook Lee
Original assignee: Industry Academic Cooperation Foundation of Yonsei University; University Industry Foundation UIF of Yonsei University
Current assignee: Industry Academic Cooperation Foundation of Yonsei University; University Industry Foundation UIF of Yonsei University
Priority date: 2021-09-23
Filing date: 2021-12-02
Publication date: 2023-04-04
Anticipated expiration: 2041-12-02
Also published as: US20230093503A1; JP7214822B1; KR20230042994A; US11977607B2

Abstract

【課題】弱教師あり学習の物体探知性能を向上させるＣＡＭ基盤の弱教師あり学習物体探知装置及び方法を提供する。
【解決手段】本発明は、ＣＡＭ基盤の弱教師あり学習物体探知装置及び方法に関し、前記装置は、イメージをＣＮＮに適用する過程でＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出するフィーチャマップ抽出部と、フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベルを生成するリニアレイヤとに順次適用する過程でリニアレイヤの加重値ベクトルを第１二値化する加重値ベクトル二値化部と、第１二値化された加重値ベクトルを基にフィーチャマップを第２二値化するフィーチャマップ二値化部と、第２二値化されたフィーチャマップを基に物体探知のためのクラス活性化マップを生成するクラス活性化マップ生成部と、を備える。
【選択図】図２

Description

本発明は、ＣＡＭ生成技術に係り、より詳細には、弱教師あり学習物体探知の性能を開設するように分類タスクに対する依存度が低いＣＡＭを生成できるＣＡＭ基盤の弱教師あり学習物体探知装置及び方法に関する。

物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）の目標は、場面で対象物体の位置をキャプチャすることである。過去１０年間、ディープラーニングアクセス方式は、物体探知を含む様々なコンピュータビジョン作業で印象的な改善をなした。このような技術は、バウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）のような探知のために、高価な注釈が必要な完全教師あり学習に依存することができる。それに対し、弱教師あり学習物体探知（ＷＳＯＬ、ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）は、イメージ水準クラスラベルのような弱教師ありで同じ作業を処理することができる。その経済性は、この数年間、多くの注目を集めてきた。

最近の弱教師あり学習物体探知研究は、イメージを分類ネットワークに入力して、イメージのクラス活性化マップに基づいてバウンディングボックスを生成する方法が主流をなしている。ここで、クラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）は、ネットワークがイメージのクラスを判断するとき、イメージのどの領域をみて当該イメージのクラスを判断したか、ヒートマップを使用して直観的に視覚化する方法に該当することができる。

既存のＣＡＭ生成方法は、分類ネットワークの最後の層フィーチャマップと分類器のウェイトとをチャネル別にかけて加える方式にて行われることができる。これにより、分類ネットワークは、イメージをよく分類し出すために、物体の小さい特異領域に集中しようとする性向があり、このような特徴は、物体全体を探知し出すべき物体探知任務と矛盾する関係を形成する。

韓国登録特許第１０－２０５１０３２号

本発明の一実施形態は、追加的な学習なしにも二値化を基盤とするＣＡＭ開発を介して、既存のＣＡＭが探すことができなかった物体の領域まで探すことにより、弱教師あり学習の物体探知性能を向上させるＣＡＭ基盤の弱教師あり学習物体探知装置及び方法を提供する。

本発明の一実施形態は、分類器の加重値を二値化してＣＡＭを生成するのに役立つフィーチャマップを選択的に活用できるＣＡＭ基盤の弱教師あり学習物体探知装置及び方法を提供する。

実施形態の中で、ＣＡＭ基盤の弱教師あり学習物体探知（ＷＳＯＬ、ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）装置は、イメージをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に適用する過程で前記ＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出するフィーチャマップ抽出部と、前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル（ｌａｂｅｌ）を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第１二値化する加重値ベクトル二値化部と、前記第１二値化された加重値ベクトルを基に前記フィーチャマップを第２二値化するフィーチャマップ二値化部と、前記第２二値化されたフィーチャマップを基に物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）のためのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）を生成するクラス活性化マップ生成部とを備える。

前記プーリングレイヤは、前記フィーチャマップに対して全域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を行って前記フィーチャベクトルを生成するように実現されることができる。

前記加重値ベクトル二値化部は、閾値を基準に前記加重値ベクトルに対する前記第１二値化を行うことができる。

前記加重値ベクトル二値化部は、前記閾値を最適化するために、複数の相対閾値を基にグリッド探索（ｇｒｉｄｓｅａｒｃｈ）を行うことができる。

前記加重値ベクトル二値化部は、次の［数１］を利用して前記グリッド探索を行うことができる。

（ここで、

は、ｃ番目の対象クラスの加重値に対する最適閾値であり、ｃ∈Ｃ（Ｃは、対象クラスの個数）であり、ｗ∈Ｗ（Ｗは、加重値ベクトル）であり、θ_ｗは、相対閾値である。）

前記フィーチャマップ二値化部は、前記第１二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも１つの一部チャネルを選択できる。

前記フィーチャマップ二値化部は、フィーチャ二値化閾値（ｆｅａｔｕｒｅｂｉｎａｒｉｚｅｔｈｒｅｓｈｏｌｄ）を基準に前記少なくとも１つの一部チャネルに対する前記第２二値化を行うことができる。

前記フィーチャマップ二値化部は、次の［数２］を利用して前記第２二値化を行うことができる。

（ここで、Ｆ_ｋ（ｘ、ｙ）は、ｙ番目の行とｘ番目の列とに対してフィーチャマップＦ_ｋのｋ番目のチャネルの要素（ｅｌｅｍｅｎｔ）であり、Ｔ_ｆは、フィーチャ二値化閾値である。）

前記クラス活性化マップ生成部は、前記第２二値化された前記少なくとも１つの一部チャネルを集計して前記クラス活性化マップを生成できる。

施形態の中で、ＣＡＭ基盤の弱教師あり学習物体探知（ＷＳＯＬ、ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）方法は、イメージをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に適用する過程で前記ＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出するステップと、前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル（ｌａｂｅｌ）を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第１二値化するステップと、前記第１二値化された加重値ベクトルを基に前記フィーチャマップを第２二値化するステップと、前記第２二値化されたフィーチャマップを基に物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）のためのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）を生成するステップとを含む。

前記第１二値化するステップは、閾値を基準に前記加重値ベクトルに対する前記第１二値化を行うステップを含むことができる。

前記第２二値化するステップは、前記第１二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも１つの一部チャネルを選択するステップを含むことができる。

前記第２二値化するステップは、フィーチャ二値化閾値（ｆｅａｔｕｒｅｂｉｎａｒｉｚｅｔｈｒｅｓｈｏｌｄ）を基準に前記少なくとも１つの一部チャネルに対する前記第２二値化を行うステップを含むことができる。

開本発明は、次の効果を有することができる。ただし、特定実施形態が次の効果を全て含むべきであるとか、次の効果だけを含むべきであるという意味ではないので、本発明の権利範囲は、これによって制限されると理解されてはならない。

現在、ほとんどの弱教師あり学習物体探知方法は、学習過程でイメージの一部分を消す方式や、または同じクラスのフィーチャ分布を調節する方式でＣＡＭの部分化問題を解決している。

しかし、このような方式は、ネットワーク構造に変化を与える方式であるという点で追加的な学習が必要であり、より多くのコンピューティング資源を必要とするという問題点が存在しうる。

しかし、本発明に係る方法は、既に取得した情報を追加的な学習なしに物体探知に適するように変換させて使用しようとし、既に存在するネットワークのモデルに直ちに応用できる方法である点において、追加的な学習とコンピューティングパワーとが必要でないという長所を有している。

本発明に係る弱教師あり学習物体探知装置の機能的構成を説明する図である。本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法の一実施形態を説明する順序図である。本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法の全体概念図である。本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法の全体構造を説明する図である。ＣＵＢに対する探知性能を比較した結果を説明する図である。ＩｍａｇｅＮｅｔに対するＣＡＭとＣＡＡＭとの失敗事例を説明する図である。相対閾値に対するハイパーパラメータスイープを説明する図である。ＮＷＣと本発明の失敗事例を説明する図である。本発明に係るフィーチャマップ二値化の効果を説明する図である。個別チャネルで本発明に係るフィーチャマップ二値化の効果を説明する図である。本発明に関する実験結果を示す図である。本発明に関する実験結果を示す図である。本発明に関する実験結果を示す図である。本発明に関する実験結果を示す図である。本発明に関する実験結果を示す図である。本発明に関する実験結果を示す図である。

本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明する実施形態によって制限されると解釈されてはならない。すなわち、実施形態は、様々な変更が可能であり、種々の形態を有することができるので、本発明の権利範囲は、技術的思想を実現できる均等物等を含むと理解されなければならない。また、本発明において提示した目的または効果は、特定実施形態がこれを全部含むべきであるとか、そのような効果だけを含むべきであるという意味ではないので、本発明の権利範囲は、これによって制限されると理解されてはならないであろう。

一方、本出願において述べられる用語の意味は、次のように理解されるべきであろう。

「第１」、「第２」などの用語は、１つの構成要素を他の構成要素から区別するためのものであって、これらの用語によって権利範囲が限定されてはならない。例えば、第１構成要素は第２構成要素と命名されることができ、同様に、第２構成要素も第１構成要素と命名されることができる。

ある構成要素が他の構成要素に「連結されて」いると言及したときには、その他の構成要素に直接連結されることができるが、中間に他の構成要素が存在することもできると理解されるべきであろう。それに対し、ある構成要素が他の構成要素に「直接連結されて」いると言及したときには、中間に他の構成要素が存在しないと理解されるべきであろう。一方、構成要素等間の関係を説明する他の表現、すなわち、「～間に」と「すぐ～間に」、または「～に隣り合う」と「～に直接隣り合う」なども同様に解釈されなければならない。

単数の表現は、文脈上明白に異なるように意味しない限り、複数の表現を含むと理解されなければならず、「含む」または「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものが存在することを指定しようとするものであり、１つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものなどの存在または付加可能性を予め排除しないと理解されなければならない。

各ステップにおいて識別符号（例えば、ａ、ｂ、ｃなど）は、説明の便宜のために使用するものであって、識別符号は、各ステップの順序を説明するものでなく、各ステップは、文脈上明白に特定順序を記載しない限り、明記した順序と異なるように実施することができる。すなわち、各ステップは、明記した順序と同様に実施でき、実質的に同時に行われることもでき、反対の順序で行われることもできる。

本発明は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現されることができ、コンピュータ読み取り可能な記録媒体は、コンピューティングシステムによって読み取られることができるデータが格納される全ての種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例では、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、光データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピューティングシステムに分散されて、分散方式にてコンピュータ読み取り可能なコードが格納され、実行されることができる。

ここで使用するあらゆる用語は、特に定義しない限り、本発明の属する分野における通常の知識を有する者により一般的に理解されるのと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致すると解釈されなければならず、本出願において明白に定義しない限り、理想的であるか、過度に形式的な意味を有すると解釈されることができない。

クラス活性化マッピング（ＣＡＭ）は、ＷＳＯＬ問題を解決するために最も広く使用される方法であることができる。ＣＡＭは、イメージ水準クラスラベルを予測するために、畳み込みニューラルネットワークを学習できる。推論段階でＣＡＭは、最後のコンボリューションフィーチャマップのチャネル次元に加重平均プーリング（ｗｅｉｇｈｔｅｄａｖｅｒａｇｅｐｏｏｌｉｎｇ）を適用してアテンションマップ（ａｔｔｅｎｔｉｏｎｍａｐ）を抽出できる。加重平均プーリングの場合、最後の完全連結レイヤ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）の加重値ベクトルが使用され得る。ＣＮＮが物体感知器（ｏｂｊｅｃｔｄｅｔｅｃｔｏｒ）として動作し、加重値ベクトルが応答を集計するので、合理的なアクセス方式であることができる。したがって、結果アテンションマップ（ｒｅｓｕｌｔａｔｔｅｎｔｉｏｎｍａｐ）は、対象物体の位置を強調して表示することができる。

しかし、分類器（ｃｌａｓｓｉｆｉｅｒ）は、固有タスクに必要な情報のみ学習するので、対象物体の範囲と必ず一致しないことがある。例えば、黄色で頭の黒い鳥と他の黒い鳥とを区別するためには、髪の色のみあれば十分であることができる。したがって、分類器は、物体または対象物体とともに頻繁に現れる背景物体の最も区別される部分を探知する傾向を見せることができる。このような限界を緩和するために、既存のほとんどのＷＳＯＬ技術は、分類器が物体の全体範囲にわたって活性化されるように導く特別な学習プロセスを導入してきた。

このような専門的な学習技法の他にも、近年、ＰｓｙＮｅｔとＲ－ＣＡＭとは、推論段階で加重平均に対する疑問を提起した。ＰｓｙＮｅｔは、完全連結レイヤの加重値ベクトルを使用しないＣＡＡＭ（Ｃｌａｓｓ－ＡｇｎｏｓｔｉｃＡｃｔｉｖａｔｉｏｎＭａｐｐｉｎｇ）を導入し、その代わりに、チャネル次元で最後のコンボリューションフィーチャマップを平均化した。すなわち、各チャネルは、アテンションマップに同様に寄与することができる。結果的に、より良い探知性能が表れて、加重値ベクトルを使用しないことがより良いことができるということを見せている。しかし、ＣＡＡＭは、他のデータ集合に対して一般化されないことができる。

これに対し、Ｒ－ＣＡＭは、ＣＡＭに対する加重値ベクトルの負数値を０に作る負の加重値クランピング（ｎｅｇａｔｉｖｅｗｅｉｇｈｔｃｌａｍｐｉｎｇ）を提案した。Ｒ－ＣＡＭは、アテンションマップが物体領域のみ強調させることができ、フィーチャマップでチャネルの下位集合を使用することがより良いということを見せている。しかし、負の加重値クランピングが常に最上の性能を提供できないこともある。重要なことは、情報チャネル（ｉｎｆｏｒｍａｔｉｖｅｃｈａｎｎｅｌｓ）の分布がバックボーン選択（ｂａｃｋｂｏｎｅｃｈｏｉｃｅｓ）とデータ集合（ｄａｔａｓｅｔｓ）とによって変わることができるということである。

図１は、本発明に係る弱教師あり学習物体探知装置の機能的構成を説明する図である。

図１に示すように、弱教師あり学習物体探知装置１００は、本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法を実行する複数の機能的構成を含んで実現されることができる。すなわち、弱教師あり学習物体探知装置１００は、フィーチャマップ抽出部１１０、加重値ベクトル二値化部１２０、フィーチャマップ二値化部１３０、クラス活性化マップ生成部１４０、及び制御部（図１に図示せず）を備えることができる。

フィーチャマップ抽出部１１０は、イメージをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に適用する過程でＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出できる。このとき、ＣＮＮは、予め構築されたＣＮＮモデルに該当することができる。フィーチャマップ抽出部１１０は、データベースに格納されたイメージを読み出した後、ＣＮＮの入力として提供することができ、必要に応じてイメージに対する所定の前処理（ｐｒｅ－ｐｒｏｃｅｓｓｉｎｇ）動作を行うこともできる。例えば、フィーチャマップ抽出部１１０は、イメージを所定の大きさを有するように切り取ることができ、解像度を調整することができ、所定のフィルタを適用することができる。フィーチャマップ抽出部１１０は、ＣＮＮの最後のコンボリューションレイヤで生成されるフィーチャマップを抽出して、次の動作ステップのために伝達することができる。

加重値ベクトル二値化部１２０は、フィーチャマップをプーリングレイヤとリニアレイヤとに順次適用する過程でリニアレイヤの加重値ベクトルを第１二値化することができる。すなわち、ＣＮＮを通過して生成されたフィーチャマップは、プーリングレイヤとリニアレイヤとを順次通過することにより、ＣＮＮの入力として使用されたイメージに対する分類動作を行う過程に使用されることができる。ここで、プーリングレイヤ（ｐｏｏｌｉｎｇｌａｙｅｒ）は、フィーチャマップを入力として受信して、フィーチャベクトルを出力として生成するネットワークレイヤに該当することができ、フィーチャマップに対するプーリング演算を行うことができる。一実施形態において、プーリングレイヤは、フィーチャマップに対して全域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を行ってフィーチャベクトルを生成するように実現されることができる。

また、リニアレイヤ（ｌｉｎｅａｒｌａｙｅｒ）は、プーリングレイヤを介して生成されたフィーチャベクトルを入力として受信して、イメージ上で識別される物体のクラスラベル（ｌａｂｅｌ）を出力として生成するネットワークレイヤに該当することができる。リニアレイヤは、加重値ベクトルを調整する動作が繰り返し的に行われた結果であって、予め構築されることができる。一方、ＣＮＮとプーリングレイヤ及びリニアレイヤは、相互連結された状態で事前学習を介して構築されることができ、全体が１つの分類ネットワークを形成できる。加重値ベクトル二値化部１２０により二値化された加重値ベクトルは、以後のステップでフィーチャマップを選択する過程に活用されることができる。

一実施形態において、加重値ベクトル二値化部１２０は、閾値を基準に加重値ベクトルに対する第１二値化を行うことができる。ここで、第１二値化（ｂｉｎａｒｉｚａｔｉｏｎ）は、リニアレイヤの加重値ベクトルを二値化する動作に該当することができる。このために、加重値ベクトル二値化部１２０は、予め設定された所定の閾値を用いることができる。すなわち、加重値ベクトル二値化部１２０は、閾値と加重値ベクトルとの間の比較結果に応じて加重値ベクトルの値を０または１に変更することができる。

一実施形態において、加重値ベクトル二値化部１２０は、閾値を最適化するために、複数の相対閾値を基にグリッド探索（ｇｒｉｄｓｅａｒｃｈ）を行うことができる。加重値ベクトル二値化部１２０は、加重値二値化のための最適な閾値を探すためにグリッド探索を行うことができる。ここで、グリッド探索は、探索する値をハイパーパラメータ集合と予め定義し、全ての組み合わせに対してモデル結果を算出して最適の組み合わせを探す方法に該当することができる。すなわち、加重値ベクトル二値化部１２０は、グリッド探索のために複数の相対閾値を定義することができる。例えば、複数の相対閾値は、０、０．２、０．４、０．６、０．８の集合と定義されることができ、加重値ベクトル二値化部１２０は、グリッド探索を介して最善の結果を導出する閾値を最適な閾値として決定することができる。

一実施形態において、加重値ベクトル二値化部１２０は、次の［数１］を利用してグリッド探索を行うことができる。

ここで、

は、ｃ番目のターゲットクラス（ｔａｒｇｅｔｃｌａｓｓ）の加重値に対する最適閾値であり、ｃ∈Ｃ（Ｃは、対象クラスの個数）であり、ｗ∈Ｗ（Ｗは、加重値ベクトル）であり、θ_ｗは、相対閾値である。すなわち、加重値ベクトル二値化部１２０は、上記の［数１］を利用して分類のためのターゲットクラス別に加重値二値化のための最適閾値を決定できる。

フィーチャマップ二値化部１３０は、第１二値化された加重値ベクトルを基にフィーチャマップを第２二値化することができる。ここで、第２二値化は、最後のコンボリューションレイヤから抽出されたフィーチャマップを二値化する動作に該当することができる。このために、フィーチャマップ二値化部１３０は、予め設定された所定の閾値を用いることができる。すなわち、フィーチャマップ二値化部１３０は、閾値とフィーチャとの間の比較結果に応じてフィーチャマップの各ピクセル値を０または１に変更することができる。一方、第１二値化された加重値ベクトルは、最後のコンボリューションレイヤから抽出されたフィーチャマップのうち、第２二値化過程に使用されるフィーチャマップを選択する過程で使用されることができる。

一実施形態において、フィーチャマップ二値化部１３０は、第１二値化された加重値ベクトルをフィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも１つの一部チャネルを選択できる。第１二値化された加重値ベクトルは、ターゲットクラス及びチャネル別に二値化されたベクトル値を有することができ、フィーチャマップ二値化部１３０は、二値化されたベクトル値が１に該当するフィーチャマップを選別して、当該フィーチャマップに対して第２二値化動作を行うことができる。

実施形態において、フィーチャマップ二値化部１３０は、フィーチャ二値化閾値（ｆｅａｔｕｒｅｂｉｎａｒｉｚｅｔｈｒｅｓｈｏｌｄ）を基準に少なくとも１つの一部チャネルに対する第２二値化を行うことができる。フィーチャマップ二値化部１３０は、選別された一部チャネルのフィーチャマップに対して二値化動作を行ってチャネル内の不均衡ピクセル値を除去することにより、以後動作ステップで各チャネルが均等に集計されるようにすることができる。すなわち、フィーチャ二値化閾値は、フィーチャマップに対する二値化動作を行うのに使用される閾値に該当することができ、これを介してフィーチャマップの各領域に対する活性化可否が導出され得る。

一実施形態において、フィーチャマップ二値化部１３０は、次の
［数２］を利用して第２二値化を行うことができる。

ここで、Ｆ_ｋ（ｘ、ｙ）は、ｙ番目の行とｘ番目の列とに対してフィーチャマップＦ_ｋのｋ番目のチャネルの要素（ｅｌｅｍｅｎｔ）であり、Ｔ_ｆは、フィーチャ二値化閾値である。すなわち、フィーチャマップ二値化部１３０は、特定チャネルのピクセル値がフィーチャ二値化閾値よりさらに大きい場合、当該ピクセル値を１に変更することができ、そうでない場合、当該ピクセル値を０に変更することができる。

クラス活性化マップ生成部１４０は、第２二値化されたフィーチャマップを基に物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）のためのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）を生成できる。クラス活性化マップ生成部１４０は、二値化されたフィーチャマップを基にクラス活性化マップを生成して、チャネル内で活性化された領域をクラス活性化マップに均一に寄与させることができる。

一実施形態において、クラス活性化マップ生成部１４０は、第２二値化された少なくとも１つの一部チャネルを集計してクラス活性化マップを生成できる。クラス活性化マップ生成部１４０は、二値化されたフィーチャマップに対してチャネルを集計してクラス活性化マップを生成できる。これにより、チャネル内の個別ピクセル値が最終結果に影響を与える既存の方式とは異なり、全体で活性化された領域がどれくらい頻繁に現れるかがクラス活性化マップの結果に影響を与えることができる。

制御部（図１に図示せず）は、弱教師あり学習物体探知装置１００の全体的な動作を制御し、フィーチャマップ抽出部１１０、加重値ベクトル二値化部１２０、フィーチャマップ二値化部１３０、及びクラス活性化マップ生成部１４０の間の制御流れまたはデータ流れを管理できる。

図２は、本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法の一実施形態を説明する順序図である。

図２に示すように、弱教師あり学習物体探知装置１００は、フィーチャマップ抽出部１１０を介してイメージをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に適用する過程でＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出できる（ステップＳ２１０）。

弱教師あり学習物体探知装置１００は、加重値ベクトル二値化部１２０を介してフィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル（ｌａｂｅｌ）を生成するリニアレイヤとに順次適用する過程でリニアレイヤの加重値ベクトルを第１二値化することができる（ステップＳ２２０）。

弱教師あり学習物体探知装置１００は、フィーチャマップ二値化部１３０を介して第１二値化された加重値ベクトルを基にフィーチャマップを第２二値化することができる（ステップＳ２３０）。また、弱教師あり学習物体探知装置１００は、クラス活性化マップ生成部１４０を介して第２二値化されたフィーチャマップを基に物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）のためのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）を生成できる（ステップＳ２４０）。

以下、図３～図１６を参照して本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法をより詳細に説明する。

本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、図３に簡略に図示しており、基本ＣＡＭと比較してクラス活性化マップを生成するプロセスが相違することができる。本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、加重値二値化及びフィーチャマップ二値化があるフィーチャマップを選択して適用することにより、モデルにターゲット物体の全体範囲をキャプチャさせることができる。

本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、加重値が柔軟な閾値より高いチャネルを選択し、選択したチャネルが同じ重要度を有すると処理することができる。これとは異なり、ＮＷＣ（ＮｅｇａｔｉｖｅＷｅｉｇｈｔＣｌａｍｐｉｎｇ）は、正の加重値を変更せずに、固定された閾値（０）を使用することができ、ＣＡＡＭ（Ｃｌａｓｓ－ＡｇｎｏｓｔｉｃＡｃｔｉｖａｔｉｏｎＭａｐｐｉｎｇ）は、チャネル選択なしに全ての加重値を１に変更して使用することができる。特に、ＣＡＡＭは、閾値が加重値ベクトルの最小値に設定された場合、加重値二値化の特殊な場合と見なされることができる。

また、本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、柔軟な閾値を使用して各チャネル内で活性化を二値化できる。このような方法は、実際にアテンションマップ（ａｔｔｅｎｔｉｏｎｍａｐ）が物体の全体範囲を探知するのに効果的であることができる。

本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、様々なバックボーン選択及びデータ集合によって既存のＷＳＯＬ方法を改善させることができる。本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、追加的な学習が必要でないという点で、より容易に使用されることができる。

一方、ＣＡＭがアテンションマップを抽出するのに一番多く使用される方法であることができ、傾き（ｇｒａｄｉｅｎｔ）を使用してクラス活性化マップを生成する方法も紹介されている。例えば、Ｇｒａｄ－ＣＡＭは、活性化マップを生成するとき、完全連結レイヤの加重値より傾き情報を使用できる。Ｇｒａｄ－ＣＡＭは、全てのコンボリューションレイヤで活性化マップを抽出できるようにネットワークをより一般化することができる。また、Ｇｒａｄ－ＣＡＭは、全域平均プーリングレイヤから活性化マップを自由にすることができる。しかし、Ｇｒａｄ－ＣＡＭは、イメージ内で種々の物体を探知できないという短所がある。この問題を解決するために、Ｇｒａｄ－ＣＡＭ＋＋は、ネットワークの進行過程でフィーチャマップの各ピクセルの重要性を測定するために、ピクセル別の傾きの加重平均を利用できる。

また、ＤＧＬは、傾き基盤方法を提案するが、空間情報を維持するために、各チャネルの傾きを合算しないことがある。このような技術の他にも、ＣＣＡＭ、ＰｓｙＮｅｔ、及びＲ－ＣＡＭも推論段階でフィーチャマップを抽出する方法に該当することができる。ＣＣＡＭは、低い確率クラスのクラス活性化マップが背景領域に焦点を合わせることに対し、高い確率クラスのクラス活性化マップは、前景をよく捕捉するということを発見した。したがって、ＣＣＡＭは、より良い活性化マップを取得するために、最も高い確率クラスラベルから最も低い確率クラスラベルまで他のクラス活性化マップを結合することができる。

また、ＰｓｙＮｅｔは、チャネル次元で最後のコンボリューションフィーチャマップを直接平均化して活性化マップを抽出するＣＡＡＭ（ｃｌａｓｓ－ａｇｎｏｓｔｉｃａｃｔｉｖａｔｉｏｎｍａｐｐｉｎｇ）を提案した。ＣＡＡＭは、加重値を得るためにイメージ水準ラベルが必要でないため、教師なし物体探知にも使用されることができる。Ｒ－ＣＡＭは、正の加重値のみ使用するか、負の加重値のみ使用するとき、フィーチャマップで活性化された領域の分布を観察した結果、２つの分布が極めて類似しているということを発見した。Ｒ－ＣＡＭは、このような分析に基づいて、より良いアテンションマップを得るために、負の加重値を０に固定することができる。

図４において、クラス活性化マッピング（ＣＡＭ）は、探知マップ（ｌｏｃａｌｉｚａｔｉｏｎｍａｐ）を生成する技術に該当することができる。ＣＡＭは、最後のコンボリューションレイヤ（ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）４１０のフィーチャマップに対して全域平均プーリング（ＧＡＰ、ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ）を行い、クラスラベル（ｃｌａｓｓｌａｂｅｌ）を生成するリニアレイヤ（ｌｉｎｅａｒｌａｙｅｒ）に対してプーリングを介して生成されたフィーチャベクトル（ｐｏｏｌｅｄｆｅａｔｕｒｅｖｅｃｔｏｒ）４２０を使用できる。その後、活性化マップ（ａｃｔｉｖａｔｉｏｎｍａｐ）４５０は、ターゲットクラス（ｔａｒｇｅｔｃｌａｓｓ）に対するリニアレイヤの加重値４３０を使用してフィーチャマップのチャネル（ｃｈａｎｎｅｌ）４４０に対する加重値合計に計算されることができる。最近のＣＡＡＭ（ｃｌａｓｓ－ａｇｎｏｓｔｉｃａｃｔｉｖａｔｉｏｎｍａｐｐｉｎｇ）は、加重値なしに全てのチャネルを平均化し、ＮＷＣ（ｎｅｇａｔｉｖｅｗｅｉｇｈｔｃｌａｍｐｉｎｇ）は、負の加重値を０に設定することができる。

図５において、（１）正の加重値のみあるＣＡＭ（Ｐｏｓｉｔｉｖｅ）、（２）負数であるが、絶対加重値を有したＣＡＭ（Ｎｅｇａｔｉｖｅ）、（３）ＣＵＢデータセットでバニラ（Ｖａｎｉｌｌａ）ＣＡＭの性能を比較した結果を図示している。負の加重値チャネルを使用した結果（Ｎｅｇａｔｉｖｅ）は、正の加重値と負の加重値とを共に使用するバニラ（Ｖａｎｉｌｌａ）の場合より高く表れることができる。負の加重値を有したチャネルが依然として前景領域（ｆｏｒｅｇｒｏｕｎｄｒｅｇｉｏｎ）をカバーしていることを表すことができる。ネガティブチャネルは、他のクラスを意味できるが、依然としてＣＵＢで鳥（ｂｉｒｄ）と仮定することができ、これは、ＣＵＢに対するＣＡＡＭの効果と一致することができる。それに対し、ＣＡＡＭは、様々なクラスを含むＩｍａｇｅＮｅｔで困難を経験しており、ＮＷＣは、負の加重値を捨てることにおいて利点を有することができる。

図６において、ＣＡＭとＣＡＡＭとが同時発生するクラス（例：靴及びかばん、ボール及び犬）で誤検出（ｆａｌｓｅｐｏｓｉｔｉｖｅ）を生成する例を図示している。

本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、柔軟な閾値（ｆｌｅｘｉｂｌｅｔｈｒｅｓｈｏｌｄ）で加重値を二値化（ｂｉｎａｒｉｚｅ）できる。すなわち、本発明は、閾値より高い加重値を有したチャネルを選択し、均等に集計（ａｇｇｒｅｇａｔｅ）することができる。このために、０より大きい閾値が（探知において偽陽性（ｆａｌｓｅｐｏｓｉｔｉｖｅ）に該当する）分類において陽性を除去すると仮定することができる。加重値ベクトルの加重値が高いほど、クラスと関連したフィーチャマップである確率が高く、仮りに、役に立つフィーチャマップに分類されるならば、分類された全てのフィーチャマップが同じ重要度を有するべきであるという点で、全てのフィーチャマップに同じ値が付与され得る。

本発明は、公式的に閾値τ_ｗに基づいて加重値ベクトルＷを二値化でき、次の［数０］のように表現されることができる。

ここで、Ｃは、ターゲットクラスの個数であり、Ｋは、最後のコンボリューションレイヤでチャネルの個数である。最適の閾値τ_ｗを探すために、検証セット（ｖａｌｉｄａｔｉｏｎｓｅｔ）でグリッド探索（ｇｒｉｄｓｅａｒｃｈ）が行われ得る。このとき、５個の相対閾値θ_ｗ∈｛０、０．２、０．４、０．６、０．８｝に対して探索が行われ得るし、次の数式１のように表現されることができる。

ここで、

は、ｃ番目の対象クラスの加重値に対する最適閾値であり、ｃ∈Ｃ（Ｃは、対象クラスの個数）であり、ｗ∈Ｗ（Ｗは、加重値ベクトル）であり、θ_ｗは、相対閾値である。一方、θ_ｗ＝０であるとき、本発明は、ＰｓｙＮｅｔのＣＡＡＭと同一であることができる。

最適閾値τ_ｗを使用して当該加重値が閾値より高くて、探知に有用なフィーチャマップが選択され得る。本発明のうち、加重値ベクトル二値化とＰｓｙＮｅｔとのＣＡＡＭ性能は、ＣＵＢで同様に表れることができる。なぜなら、ＣＡＡＭは、本発明の特殊な場合、すなわち、最適θ_ｗ＝０である場合に該当するためである。

図７において、θ_ｗに対するハイパーパラメータスイープ（ｈｙｐｅｒｐａｒａｍｅｔｅｒｓｗｅｅｐ）の結果を図示している。実際に、本発明（図７のＯｕｒｓに該当する）は、最適のθ_ｗで最高の探知性能を達成できる。また、ＣＵＢでＮＷＣの欠陥（ｄｅｆｉｃｉｅｎｃｙ）が表れ得る。すなわち、負の加重値を有したチャネルが有用なので、閾値が低いほど、より良い性能を表すことができる。この他にも、ＩｍａｇｅＮｅｔ及びＯｐｅｎＩｍａｇｅｓで本発明がＮＷＣよりさらによい性能を表すことができる。

図８において、各列は、ＮＷＣ、ＮＷＣと本発明（Ｏｕｒｓ）との間の中間（ｉｎｔｅｒｍｅｄｉａｔｅ）、そして、本発明（Ｏｕｒｓ）のそれぞれの活性化マップを図示している。２番目の列は、本発明には含まれず、ＮＷＣには、含まれるチャネルの合計（ｓｕｍ）に該当することができる。すなわち、これは、正の加重値の小さい値に該当するフィーチャマップが依然として異なるクラスのインスタンス（ｉｎｓｔａｎｃｅ）に焦点を合わせていることを意味できる。結果的に、本発明の場合、当該フィーチャマップをフィルタリングできることに対し、ＮＷＣの当該フィーチャマップのフィルタリングが不可能であることができる。また、図７の場合、ＶａｎｉｌｌａＣＡＭ、ＮＷＣ、ＣＡＡＭと本発明とを相互比較したものであり、本発明がＮＷＣとＣＡＡＭとの限界を成功的に克服したことを意味できる。

図９及び図１０に示すように、類似した方式でチャネル内の不均衡ピクセル値はさらに他の問題であることができる。ＷＳＯＬでモデルは、分類タスクのために学習されるので、他のクラスと区別するために物体の特異部分（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐａｒｔ）を探すことができる。例えば、図９において鳥の頭は、バニラ（Ｖａｎｉｌｌａ）ＣＡＭの場合、強く活性化されることができる。これは、鳥の頭部分が、モデルがより容易に分類するのに役に立つためである。図１０の１番目の行に図示したように、チャネル内で上記の状況が依然として発生するため、チャネルを均等に集計するために加重値を二値化する方法では、この問題を解決することができない。

この問題を緩和するために、本発明は、各チャネルに対して活性化を二値化する新しい方法を提示できる。すなわち、フィーチャ二値化閾値（ｆｅａｔｕｒｅｂｉｎａｒｉｚｅｔｈｒｅｓｈｏｌｄ）τ_ｆを用いて領域が活性化されたか否かを決定できる。特に、次の［数２］を介して各チャネルが二値化され得る。

ここで、Ｆ_ｋ（ｘ、ｙ）は、ｙ番目の行とｘ番目の列とに対してフィーチャマップＦ_ｋのｋ番目のチャネルの要素（ｅｌｅｍｅｎｔ）であり、Ｔ_ｆは、フィーチャ二値化閾値である。）

チャネルが二値化された結果、図１０の２番目の行のように、活性化領域が同一に形成されることができる。二値化しなかった以前のものと比較すると、鳥の体と頭とは同じ値を有することができる。したがって、本発明は、チャネル内で強調表示された部分を強制にクラス活性化マップに均一に寄与させることができる。すなわち、以前の場合には、チャネル内のピクセル値が最終結果に影響を及ぼしたが、今は、活性化された領域が全体でどれくらい頻繁に表れるかが重要でありうる。

図９において、本発明に係る方法は、フィーチャマップを二値化しない方法と比較して物体の範囲をキャプチャできる。これは、比較実験（ａｂｌａｔｉｏｎｓｔｕｄｙ）を介しての定量的結果でも検証されることができる。

本発明に係る方法によって、既存の方法の本質的な問題を解決するために、チャネル間及びチャネル内で均衡を維持できる。すなわち、本発明の場合、特異部分のみ探知されることを防止するために、チャネルと活性化との平等な関係を保障できる。本発明に係る方法は、いかなる追加的な学習なしにも、与えられた情報を十分に活用するので、効果的であることができる。

以下、次の実験を介して本発明に係る方法が効果的であるか検証する過程を説明する。

データセット（Ｄａｔａｓｅｔ）：ＩｍａｇｅＮｅｔ、Ｃａｌｔｅｃｈ－ＵＣＳＤＢｉｒｄｓ２００－２０１１（ＣＵＢ）、及びＯｐｅｎＩｍａｇｅｓ３０ｋで本発明に係る方法の効率性と拡張性とを評価できる。ＩｍａｇｅＮｅｔは、１０００個クラスに対する１２０万個の訓練イメージと１０Ｋ検証イメージとで構成された非常に大きいデータセットである。ＣＵＢは、２００個のクラスに対して５９９４個の訓練イメージと５７８４個の検証イメージとで構成されることができる。ＣＵＢデータセットは、細分化されたデータセットである。したがって、分類器（ｃｌａｓｓｉｆｉｅｒ）は、物体が何であるか判別するために、特異部分により焦点を合わせる傾向があるので、全体物体を捕捉することがより難しい場合がある。２つの場合、全てバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）で注釈処理されている。ＯｐｅｎＩｍａｇｅｓには、２９８１９個の訓練イメージと５０００個の検証イメージとが含まれている。当該データセットは、インスタンス分割データセット（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎｄａｔａｓｅｔ）であり、ピクセル単位マスクにより注釈処理されているので、他のデータセットと若干異なることができる。

実現細部事項（Ｉｍｐｌｅｍｅｎｔａｔｉｏｎｄｅｔａｉｌ）：ＶＧＧ１６、ＩｎｃｅｐｔｉｏｎＶ３、及びＲｅｓＮｅｔ５０をバックボーンネットワークとして使用する。ＶＧＧ１６の場合、最上位プーリングレイヤと２つの完全連結レイヤを、完全連結レイヤで連結される全域平均プーリングレイヤに交替する。ＩｎｃｅｐｔｉｏｎＶ３は、所定の方法によって調整されることができる。所定の学習設定によってベースライン方法を学習する。広範囲な比較研究（ａｂｌａｔｉｏｎｓｔｕｄｙ）に基づいて各方法に対する最適のハイパーパラメータ値を探すことができる。

評価指標（ＥｖａｌｕａｔｉｏｎＭｅｔｒｉｃ）：ｇｒｏｕｎｄ－ｔｒｕｔｈクラス探知正確度（ＧＴ－ｋｎｏｗｎＬｏｃ）、Ｔｏｐ１探知正確度（Ｔｏｐ１Ｌｏｃ）、最大ボックス正確度（ＭａｘｂｏｘＡｃｃ）、及びピクセル平均精密度（ＰｘＡＰ）のような種々の評価メトリックを使用する。ＧＴ－ｋｎｏｗｎＬｏｃは、予めｇｒｏｕｎｄｔｒｕｔｈラベルを付与され、当該クラス活性化マップを直接取得することができる。分類結果と関係なく、ｇｒｏｕｎｄｔｒｕｔｈバウンディングボックスと推定されたｂｏｘの積集合（ＩｏＵ、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）がτより大きければ、正しいと判断する。Ｔｏｐ１Ｌｏｃは、正確に予測するために、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）と探知（ｌｏｃａｌｉｚａｔｉｏｎ）とが共に必要であるが、ＧＴ－ｋｎｏｗＬｏｃは、ただ探知予測のみ正確であれば十分である。当該実験においてτは、Ｔｏｐ１Ｌｏｃに対して５０％に固定される。ＰｘＡＰは、全ての閾値でピクセル精密度再現率曲線（ｐｉｘｅｌｐｒｅｃｉｓｉｏｎｒｅｃａｌｌｃｕｒｖｅ）の曲線の下の領域に該当する。ＰｘＡＰが最も理想的なメトリックであるが、多くのデータセットは、ボックス注釈のみ提供する。ＰｘＡＰをある程度代替するために、ＭａｘｂｏｘＡｃｃは、τが３０％、５０％、７０％であるとき、ＧＴ－ｋｎｏｗｎＬｏｃの結果を各々取得し、その平均を利用する。

ここで、本発明に係る方法を種々のベースラインモデルに適用して適用可能性を検証できる。図１１は、ＣＵＢ、ＩｍａｇｅＮｅｔ、ＯｐｅｎＩｍａｇｅｓに対する実験結果を図示する。図１１のＣＵＢ及びＩｍａｇｅＮｅｔには、ＭａｘｂｏｘＡｃｃメトリックを使用し、ＯｐｅｎＩｍａｇｅｓには、ＰｘＡＰを使用する。図１２は、Ｔｏｐ１Ｌｏｃ及びＧＴＬｏｃによるＣＡＭと方法を比較した結果を図示する。このように、本発明に係る方法は、ほとんど全てのベースラインモデルをより一層向上させることができる。特に、データ拡張基盤方法に本発明に係る方法を適用した場合、性能が大きく向上することができる。

このような古典的なベースラインモデルの他にも、本発明に係る方法は、最近に提案された他の方法にも適用されることができる。図１２～図１４の場合、これに対する結果を図示する。本発明に係る方法は、新しい方法でも有効であることができ、その結果は、本発明に係る方法の拡張性を表すことができる。

本発明に係る方法の有効性を立証するために、追加比較研究を行う。

探知性能のための各モジュールの寄与（Ｃｏｎｔｒｉｂｕｔｉｏｎｓｏｆｅａｃｈｍｏｄｕｌｅｆｏｒｌｏｃａｌｉｚａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ）：本発明に係る方法の主な構成等の様々な組み合わせに対する比較研究を行う。図１５は、比較研究結果を図示している。実験は、ＣＡＭがあるＲｅｓＮｅｔ５０に基づいて実行されることができる。ＣＡＡＭと同じ効果を有する加重値二値化モジュール（ｗｅｉｇｈｔｂｉｎａｒｉｚａｔｉｏｎｍｏｄｕｌｅ）を使用してベースラインのＭａｘＢｏｘＡｃｃ点数をＣＵＢの６３．６２％から７２．９２％に上げることができる。しかし、ＩｍａｇｅＮｅｔの正確度は、６３．６４％から６１．６６％に下がることがある。チャネル選択（ｃｈａｎｎｅｌｓｅｌｅｃｔｉｏｎ）と加重値二値化（ｗｅｉｇｈｔｂｉｎａｒｉｚａｔｉｏｎ）とを結合することは、ＣＵＢで性能を維持しながら６５．０９％を達成する点において、ＩｍａｇｅＮｅｔで加重値二値化の短所を克服できる。最後に、フィーチャマップ二値化モジュール（ｆｅａｔｕｒｅｍａｐｂｉｎａｒｉｚａｔｉｏｎｍｏｄｕｌｅ）は、当該データセットの全てに対して探知正確度（ｌｏｃａｌｉｚａｔｉｏｎａｃｃｕｒａｃｙ）をさらに向上させることができる。フィーチャマップ二値化モジュールは、ＩｍａｇｅＮｅｔに対して６６．７５％ＭａｘＢｏｘＡｃｃ点数を得ることができるのに対し、ＣＵＢに対しては、７３．４３％であることができる。

最適のθ _ｗのためのハイパーパラメータ探索（Ｈｙｐｅｒｐａｒａｍｅｔｅｒｓｅａｒｃｈｉｎｇｆｏｒｏｐｔｉｍａｌ）：最適のハイパーパラメータを探すのには追加費用が必要でありうる。テストセットを使用すれば、より良い性能を得ることができるが、比較に不公正な問題が生じ得る。また、テストセットを使用する場合、テストセットイメージの個数を考慮するとき、高い費用が発生しうる。したがって、検証とテスト分割との間のハイパーパラメータθ_ｗの転移可能性を調べる。図１６に示したように、集合（０、０．２、０．４、０．６、及び０．８）をθ_ｗの候補と設定し、検証及びテストセットで各値の性能を比較できる。Ｉｎｃｅｐｔｉｏｎｖ３に対するＣＡＭは、ベースラインモデルであり、ＩｍａｇｅＮｅｔ、ＣＵＢ、及びＯｐｅｎＩｍａｇｅｓデータセットが使用され得る。図１６において、検証及びテストセットに対する性能分散が極めて類似した傾向を見せることが確認できる。

本発明に係るＣＡＭ基盤の弱教師あり学習物体探知方法は、より良い物体探知性能のためにフィーチャマップを生成する新しい方法に関するものであることができる。本発明は、分類加重値が物体探知に対する最適の値でないことを確認することで、加重値を二値化し、対象タスクに有用なチャネルを選択できる。また、本発明は、ターゲット物体の全体領域が同じ寄与度を有するようにするために、チャネルで活性化（ａｃｔｉｖａｔｉｏｎ）を二値化できる。本発明に係る方法は、簡単でありながらも、既存の方法等に一般化することができ、追加的な学習なしにも、ＣＵＢ、ＩｍａｇｅＮｅｔ、及びＯｐｅｎＩｍａｇｅｓに対して類似した性能を達成できる。

上記では、本発明の望ましい実施形態を参照して説明したが、当該技術分野の熟練した当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得ることが理解できるであろう。

１００弱教師あり学習物体探知装置
１１０フィーチャマップ抽出部
１２０加重値ベクトル二値化部
１３０フィーチャマップ二値化部
１４０クラス活性化マップ生成部
４１０最後のコンボリューションレイヤ
４２０フィーチャベクトル
４３０リニアレイヤの加重値
４４０フィーチャマップのチャネル
４５０活性化マップ

本発明は、下記の研究課題もって支援を受けて出願されました。
［この発明を支援した国家研究開発事業］
［課題固有番号］１７１１１２６０８２
［課題番号］２０２０－０－０１３６１－００２
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］情報通信企画評価院
［研究事業名］情報通信放送研究開発事業
［研究課題名］人工知能大学院支援（延世大学校）
［寄与率］１／２
［課題実行機関名］延世大学校産学協力団
［研究期間］２０２１．０１．０１～２０２１．１２．３１
［この発明を支援した国家研究開発事業］
［課題固有番号］１７１１１３４１７７
［課題番号］２０１９Ｒ１Ａ２Ｃ２００３７６０
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］韓国研究財団
［研究事業名］中堅研究者支援事業
［研究課題名］特性情報自動生成を介しての初めて見る複合カテゴリーのイメージとビデオ生成及び認識のためのゼロショット学習技術研究
［寄与率］１／２
［課題実行機関名］延世大学校
［研究期間］２０２１．０３．０１～２０２２．０２．２８

本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明する実施形態によって制限されると解釈されてはならない。すなわち、実施形態は、様々な変更が可能であり、種々の形態を有することができるので、本発明の権利範囲は、技術的思想を実現できる均等物等を含むと理解されなければならない。また、本発明において提示した目的または効果は、特定実施形態がこれを全部含むべきであるとか、そのような効果だけを含むべきであるという意味ではないので、本発明の権利範囲は、これによって制限されると理解されてはならないであろう。

Claims

イメージをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に適用する過程で前記ＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出するフィーチャマップ抽出部と、
前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル（ｌａｂｅｌ）を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第１二値化する加重値ベクトル二値化部と、
前記第１二値化された加重値ベクトルを基に前記フィーチャマップを第２二値化するフィーチャマップ二値化部と、
前記第２二値化されたフィーチャマップを基に物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）のためのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）を生成するクラス活性化マップ生成部と、
を備えることを特徴とするＣＡＭ基盤の弱教師あり学習物体探知（ＷＳＯＬ、ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）装置。
前記プーリングレイヤは、
前記フィーチャマップに対して全域平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を行って前記フィーチャベクトルを生成するように実現されることを特徴とする請求項１に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。
前記加重値ベクトル二値化部は、
閾値を基準に前記加重値ベクトルに対する前記第１二値化を行うことを特徴とする請求項１に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。
前記加重値ベクトル二値化部は、
前記閾値を最適化するために、複数の相対閾値を基にグリッド探索（ｇｒｉｄｓｅａｒｃｈ）を行うことを特徴とする請求項３に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。
前記加重値ベクトル二値化部は、
次の［数１］を利用して前記グリッド探索を行うことを特徴とする請求項４に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。

ここで、

は、ｃ番目の対象クラスの加重値に対する最適閾値であり、ｃ∈Ｃ（Ｃは、対象クラスの個数）であり、ｗ∈Ｗ（Ｗは、加重値ベクトル）であり、θ_ｗは、相対閾値である。
前記フィーチャマップ二値化部は、
前記第１二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも１つの一部チャネルを選択することを特徴とする請求項１に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。
前記フィーチャマップ二値化部は、
フィーチャ二値化閾値（ｆｅａｔｕｒｅｂｉｎａｒｉｚｅｔｈｒｅｓｈｏｌｄ）を基準に前記少なくとも１つの一部チャネルに対する前記第２二値化を行うことを特徴とする請求項６に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。
前記フィーチャマップ二値化部は、
次の［数２］を利用して前記第２二値化を行うことを特徴とする請求項７に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。

ここで、Ｆ_ｋ（ｘ、ｙ）は、ｙ番目の行とｘ番目の列とに対してフィーチャマップＦ_ｋのｋ番目のチャネルの要素（ｅｌｅｍｅｎｔ）であり、Ｔ_ｆは、フィーチャ二値化閾値である。
前記クラス活性化マップ生成部は、
前記第２二値化された前記少なくとも１つの一部チャネルを集計して前記クラス活性化マップを生成することを特徴とする請求項７に記載のＣＡＭ基盤の弱教師あり学習物体探知装置。
イメージをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に適用する過程で前記ＣＮＮにある最後のコンボリューションレイヤのフィーチャマップを抽出するステップと、
前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル（ｌａｂｅｌ）を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第１二値化するステップと、
前記第１二値化された加重値ベクトルを基に前記フィーチャマップを第２二値化するステップと、
前記第２二値化されたフィーチャマップを基に物体探知（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）のためのクラス活性化マップ（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）を生成するステップと、
を含むことを特徴とするＣＡＭ基盤の弱教師あり学習物体探知（ＷＳＯＬ、ＷｅａｋｌｙＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＬｏｃａｌｉｚａｔｉｏｎ）方法。
前記第１二値化するステップは、
閾値を基準に前記加重値ベクトルに対する前記第１二値化を行うステップを含むことを特徴とする請求項１０に記載のＣＡＭ基盤の弱教師あり学習物体探知方法。
前記第２二値化するステップは、
前記第１二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも１つの一部チャネルを選択するステップを含むことを特徴とする請求項１０に記載のＣＡＭ基盤の弱教師あり学習物体探知方法。
前記第２二値化するステップは、
フィーチャ二値化閾値（ｆｅａｔｕｒｅｂｉｎａｒｉｚｅｔｈｒｅｓｈｏｌｄ）を基準に前記少なくとも１つの一部チャネルに対する前記第２二値化を行うステップを含むことを特徴とする請求項１２に記載のＣＡＭ基盤の弱教師あり学習物体探知方法。