JP7166423B1 - 弱教師あり客体認識装置及び方法 - Google Patents

弱教師あり客体認識装置及び方法 Download PDF

Info

Publication number
JP7166423B1
JP7166423B1 JP2021192584A JP2021192584A JP7166423B1 JP 7166423 B1 JP7166423 B1 JP 7166423B1 JP 2021192584 A JP2021192584 A JP 2021192584A JP 2021192584 A JP2021192584 A JP 2021192584A JP 7166423 B1 JP7166423 B1 JP 7166423B1
Authority
JP
Japan
Prior art keywords
feature map
final
map
deletion
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021192584A
Other languages
English (en)
Other versions
JP2023048062A (ja
Inventor
ラン ビュン,ヘ
イ,ウォンヨン
キ,ミンソン
イ,ジェウク
パク,スンホ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University Industry Foundation UIF of Yonsei University
Original Assignee
University Industry Foundation UIF of Yonsei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University Industry Foundation UIF of Yonsei University filed Critical University Industry Foundation UIF of Yonsei University
Application granted granted Critical
Publication of JP7166423B1 publication Critical patent/JP7166423B1/ja
Publication of JP2023048062A publication Critical patent/JP2023048062A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出できる弱教師あり客体認識装置及び方法を提供する。【解決手段】は、入力イメージに対する第1コンボリューション演算を実行してフィーチャーマップ(X)を生成するフィーチャーマップ生成部と、(X)でアテンションマップ(A)を生成し、(A)を介して入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成する削除フィーチャーマップ生成部と、(X)及び(-X)に対する第2コンボリューション演算を実行して最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)を生成する最終マップ生成部と、(F)及び(-F)に基づいて、入力イメージのフォアグラウンド客体に対する対照ガイドを決定する対照ガイド決定部と、を含む。【選択図】図2

Description

本発明は、客体認識技術に係り、より詳細には、CNN(Convolutional Neural Network)学習に基づいて、イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出することができる弱教師あり客体認識装置及び方法に関する。
客体認識(Object Localization)は、イメージ上の客体を識別するために、イメージ内の単一客体に対する分類及び位置検出するコンピュータビジョン技術である。CNNのようなディープラーニングモデルは、客体認識のために当該客体の固有の特徴を自動で学習するのに使用される。
ディープラーニングを介した客体認識方法は、既に作られたデータセットと、その中に含まれている客体の位置に対する実際の情報を共に学習する方法で設計されているが、このようなディープラーニング学習モデルを完全教師あり学習(Fully supervised)方法という。完全教師あり学習方法を介した客体の位置検出方法は、性能が優れているものの、客体の位置に対する実際の情報を学習過程に必ず含まなければならないというデメリットがあるが、そのため、時間が経過するほど多様なデータを学習しながら客体の位置に対するラベルを作るのに多くの時間を費やさなければならないという問題がある。
そこで、最近は、完全教師あり学習方法の他に、弱教師あり学習(Weakly supervised)の方法を通じて多様な研究を行っている。弱教師あり学習とは、学習過程でイメージとそれに対するクラスラベルのみを学習させて、ディープラーニングの予測モデルを生成する方法である。完全教師あり学習と比べて、弱教師あり学習は客体の実際位置に対するラベルが必要ではないため、多くの人的、物的浪費を減らすことができるというメリットがある。
しかし、弱教師あり学習を介して客体認識をする既存の方法は、CNNにおける分類器がイメージをどのクラスに属するか分類するとき、最も特徴的な部分のみを見て判断して、この領域のみを認識するため、客体認識の効率が落ちるという問題がある。
韓国登録特許第10-1879207号
本発明の一実施形態は、CNN(Convolutional Neural Network)学習に基づいて、イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出することができる弱教師あり客体認識装置及び方法を提供しようとする。
本発明の一実施形態は、客体のフォアグラウンド全体を認識してバックグラウンドを削除し、正確な客体の領域を検出することによって、客体認識の効率を高めることができる弱教師あり客体認識装置及び方法を提供しようとする。
本発明の一実施形態は、客体認識の性能を向上させることができるAE(Adversarial erasing)ベースの新たな弱教師あり客体認識(WSOL、Weakly Supervised Object Localization)のフレームワークを提案する弱教師あり客体認識装置及び方法を提供しようとする。
実施形態のうち、弱教師あり客体認識装置は、入力イメージに対する第1コンボリューション演算を実行してフィーチャーマップ(X)を生成するフィーチャーマップ生成部と、前記フィーチャーマップ(X)でアテンションマップ(A)を生成し、前記アテンションマップ(A)を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成する削除フィーチャーマップ生成部と、前記フィーチャーマップ(X)及び前記削除フィーチャーマップ(-X)に対する第2コンボリューション演算を実行して最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成する最終マップ生成部と、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて、前記入力イメージのフォアグラウンド客体に対する対照ガイド(contrastive guidance)を決定する対照ガイド決定部と、を含む。
前記削除フィーチャーマップ生成部は、前記フィーチャーマップ(X)をチャンネル-ワイズプーリング(channel-wise pooling)を介して、前記アテンションマップ(A)を生成することができる。
前記削除フィーチャーマップ生成部は、前記アテンションマップ(A)で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行することができる。
前記最終マップ生成部は、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)を介して、前記入力イメージで互いに異なる地域を活性化し、前記フォアグラウンド客体を背景と遠ざかるようにすることができる。
前記最終マップ生成部は、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、チャンネル-ワイズプーリング(channel-wise pooling)ベースのアテンションマップ(AF,-AF)を介して、フォアグラウンドマスク(Mfg,-Mfg)及びバックグラウンドマスク(Mbg,-Mbg)を生成することができる。
前記最終マップ生成部は、前記フォアグラウンドマスク(Mfg,-Mfg)及び前記バックグラウンドマスク(Mbg,-Mbg)に基づいて、前景フィーチャーマップ(Ffg,-Ffg)及び背景フィーチャーマップ(Fbg,-Fbg)を生成することができる。
前記最終マップ生成部は、前記前景フィーチャーマップ(Ffg,-Ffg)及び前記背景フィーチャーマップ(Fbg,-Fbg)を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)を生成することができる。
前記最終マップ生成部は、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、第3コンボリューション演算を実行してキー、クエリー及びバリュー(k,q,v)を生成し、前記キー、クエリー及びバリューを加重値マトリックス(W)でプロダクト演算して、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)の性能を向上させることができる。
前記対照ガイド決定部は、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて生成された多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)のうち、前景フィーチャーベクトル(Zfg,-Zfg)それぞれの背景フィーチャーベクトル(Zbg,-Zbg)間の距離を拡大しながら、前記前景フィーチャーベクトル(Zfg,-Zfg)間の距離を減少させるように前記対照ガイド(contrastive guidance)を決定することができる。
実施形態のうち、弱教師あり客体認識方法は、入力イメージに対する第1コンボリューション演算を実行してフィーチャーマップ(X)を生成するフィーチャーマップ生成ステップと、前記フィーチャーマップ(X)でアテンションマップ(A)を生成し、前記アテンションマップ(A)を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成する削除フィーチャーマップ生成ステップと、前記フィーチャーマップ(X)及び前記削除フィーチャーマップ(-X)に対する第2コンボリューション演算を実行して最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成する最終マップ生成ステップと、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて、前記入力イメージのフォアグラウンド客体に対する対照ガイド(contrastive guidance)を決定する対照ガイド決定ステップと、を含む。
前記削除フィーチャーマップ生成ステップは、前記フィーチャーマップ(X)をチャンネル-ワイズプーリング(channel-wise pooling)を介して、前記アテンションマップ(A)を生成するステップ、及び前記アテンションマップ(A)で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行するステップを含むことができる。
前記最終マップ生成ステップは、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、チャンネル-ワイズプーリング(channel-wise pooling)ベースのアテンションマップ(AF,-AF)を介して、フォアグラウンドマスク(Mfg,-Mfg)及びバックグラウンドマスク(Mbg,-Mbg)を生成するステップと、前記フォアグラウンドマスク(Mfg,-Mfg)及び前記バックグラウンドマスク(Mbg,-Mbg)に基づいて、前景フィーチャーマップ(Ffg,-Ffg)及び背景フィーチャーマップ(Fbg,-Fbg)を生成するステップと、前記前景フィーチャーマップ(Ffg,-Ffg)及び前記背景フィーチャーマップ(Fbg,-Fbg)を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)を生成するステップと、を含むことができる。
前記最終マップ生成ステップは、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、第3コンボリューション演算を実行してキー(k)、クエリー(q)及びバリュー(v)を生成し、前記キー(k)、クエリー(q)及びバリュー(v)を加重値マトリックス(W)でプロダクト演算し、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)の性能を向上させることができる。
前記対照ガイド決定ステップは、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて生成された多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)のうち、前景フィーチャーベクトル(Zfg,-Zfg)それぞれの背景フィーチャーベクトル(Zbg,-Zbg)間の距離を拡大しながら、前記前景フィーチャーベクトル(Zfg,-Zfg)間の距離を減少させるように前記対照ガイド(contrastive guidance)を決定することができる。
開示された技術は、次の効果を有することができる。但し、特定の実施形態が次の効果を全て含まなければならないとか、次の効果のみを含まなければならないという意味ではないので、開示する技術の権利範囲は、これによって制限されるものと理解されてはならない。
本発明の一実施形態に係る弱教師あり客体認識装置及び方法は、CNN(Convolutional Neural Network)学習に基づいて、イメージ内の客体に対する対照ガイドを介して、正確な客体の領域を検出することができる。
本発明の一実施形態に係る弱教師あり客体認識装置及び方法は、客体のフォアグラウンド全体を認識してバックグラウンドを削除し、正確な客体の領域を検出することによって、客体認識の効率を高めることができる。
本発明の一実施形態に係る弱教師あり客体認識装置及び方法は、客体認識の性能を向上させることができるAE(Adversarial erasing)ベースの新たな弱教師あり客体認識(WSOL)のフレームワークを提案することができる。
本発明の一実施形態に係る弱教師あり客体認識装置のシステムの構成を説明する図である。 図1の弱教師あり客体認識装置にあるプロセスの機能的構成を説明する図である。 図2の弱教師あり客体認識装置で実行される弱教師あり客体認識の過程を説明するフローチャートである。 本発明に係る弱教師あり客体認識のための全フレームワークを説明する図である。 原本分岐と削除分岐のフィーチャーマップにおける活性化の変化を示す図である。 前景及び背景フィーチャーマップを正規の埋め込み空間に投影させて、多次元のベクトルを生成する図である。 本発明に係るWSOLのフレームワークのImageNet及びCUB-200-2011データセットに対する定性的結果を示す図である。 既存の方法に対して、本発明に係る弱教師あり客体認識の結果を示す例示図である。
本発明は、下記の研究課題もって支援を受けて出願されました。
[この発明を支援した国家研究開発事業]
[課題固有番号] 1711126082
[課題番号] 2020-0-01361-002
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 情報通信企画評価院
[研究事業名] 情報通信放送革新人材養成(R&D)
[研究課題名] 人工知能大学院支援(延世大学校)
[寄与率] 1/
[課題実行機関名] 延世大学校産学協力団
[研究期間] 2021.01.01~2021.12.31
[この発明を支援した国家研究開発事業]
[課題固有番号] 1711134177
[課題番号] 2019R1A2C2003760
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 韓国研究財団
[研究事業名] 中堅研究者支援事業
[研究課題名] 特性情報自動生成を介しての初めて見る複合カテゴリーのイメージとビデオ生成及び認識のためのゼロショット学習技術研究
[寄与率] 1/
[課題実行機関名] 延世大学校
[研究期間] 2021.03.01~2022.02.28
[この発明を支援した国家研究開発事業]
[課題固有番号] 1711125843
[課題番号] 2018-0-00769-004
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 情報通信企画評価院
[研究事業名] SWコンピューティング産業源泉技術開発(R&D、情報化)
[研究課題名] 人工知能システムのためのニューロムピックコンピューティングSWプラットフォーム技術開発
[寄与率] 1/3
[課題実行機関名] 韓国電子通信研究院
[研究期間] 2021.01.01~2021.12.31

本発明に関する説明は、構造的乃至機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明する実施形態により制限されるものと解釈されてはならない。すなわち、実施形態は、多様な変更が可能であり、様々な形態を有し得るので、本発明の権利範囲は、技術的思想を実現することができる均等物を含むものと理解されなければならない。また、本発明で提示した目的又は効果は、特定の実施形態がこれを全て含まなければならないとか、そのような効果のみを含まなければならないという意味ではないので、本発明の権利範囲は、これによって制限されるものと理解されてはならない。
一方、本出願で述べられる用語の意味は、次のように理解されなければならない。
「第1」、「第2」等の用語は、一つの構成要素を別の構成要素から区別するためのものであって、これらの用語により権利範囲が限定されてはならない。例えば、第1構成要素は、第2構成要素と名付けられてもよく、同様に第2構成要素も、第1構成要素と名付けられてもよい。
ある構成要素が別の構成要素に「連結されて」いると言及したときには、その別の構成要素に直接的に連結されていてもよいが、中間に別の構成要素が存在していてもよいと理解されなければならない。反面、ある構成要素が別の構成要素に「直接連結されて」いると言及されたときには、中間に別の構成要素が存在していないものと理解されなければならない。一方、構成要素間の関係を説明する別の表現、すなわち、「~間に」や「直ぐに~間に」、又は「~に隣り合う」や「~に直接隣り合う」等も同様に解釈されなければならない。
単数の表現は、文脈上明らかに異なる意味ではない限り、複数の表現を含むものと理解されなければならず、「含む」又は「有する」等の用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、又はこれらを組み合わせたものが存在することを指定しようとするものであり、一つ又はそれ以上の異なる特徴や数字、ステップ、動作、構成要素、部分品、又はこれらを組み合わせたものの存在又は付加の可能性を予め排除しないものと理解されなければならない。
各ステップにおいて、識別符号(例えば、a、b、c等)は、説明の便宜のために使用されるものであって、識別符号は各ステップの順序を説明するものではなく、各ステップは、文脈上明らかに特定の順序を記載していない以上、明記された順序と異なって生じ得る。すなわち、各ステップは、明記された順序と同じように生じることもあり、実質的に同時に行われることもあり、反対の順序通りに行われることもある。
本発明は、コンピュータが読み取ることができる記録媒体にコンピュータが読み取ることができるコードとして具現化されることができ、コンピュータが読み取ることができる記録媒体は、コンピュータシステムにより読み取られることができるデータが保存される全ての種類の記録装置を含む。コンピュータが読み取ることができる記録媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ保存装置等がある。また、コンピュータが読み取ることができる記録媒体は、ネットワークで連結されたコンピュータシステムに分散され、分散方式でコンピュータが読み取ることができるコードが保存されて実行できる。
ここで使用する全ての用語は、特に定義しない限り、本発明が属する分野において通常の知識を有する者により一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致するものと解釈されなければならず、本出願で明らかに定義しない限り、理想的又は過度に形式的な意味を有するものと解釈できない。
図1は、本発明の一実施形態に係る弱教師あり客体認識装置のシステムの構成を説明する図である。
図1を参照すると、弱教師あり客体認識装置100は、プロセッサ110、メモリ130、ユーザ入出力部150、及びネットワーク入出力部170を含むコンピューティングシステムで構成されることができる。
プロセッサ110は、弱教師あり客体認識装置100が動作する過程における各ステップを処理するプロシージャを実行することができ、その過程全般で読み取られたり作成されるメモリ130を管理することができ、メモリ130にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールすることができる。プロセッサ110は、弱教師あり客体認識装置100の動作全般を制御することができ、メモリ130、ユーザ入出力部150、及びネットワーク入出力部170と電気的に連結され、これらの間のデータの流れを制御することができる。プロセッサ110は、弱教師あり客体認識装置100のCPU(Central Processing Unit)として具現化されることができる。
メモリ130は、SSD(Solid State Drive)又はHDD(Hard Disk Drive)のような不揮発性メモリとして具現化されて、弱教師あり客体認識装置100に必要なデータ全般を保存するのに使用される補助記憶装置を含むことができ、RAM(Random Access Memory)のような揮発性メモリとして具現化された主記憶装置を含むことができる。
ユーザ入出力部150は、ユーザの入力を受信するための環境、及びユーザに特定の情報を出力するための環境を含むことができる。例えば、ユーザ入出力部150は、タッチパッド、タッチスクリーン、画像キーボード又はポインティング装置のようなアダプターを含む入力装置及びモニター又はタッチスクリーンのようなアダプターを含む出力装置を含むことができる。一実施形態において、ユーザ入出力部150は、リモートアクセスを介してアクセスされるコンピューティング装置に該当し得、そのような場合、弱教師あり客体認識装置100は、独立したサーバとして実行されることができる。
ネットワーク入出力部170は、ネットワークを介して外部装置又はシステムと連結するための環境を含み、例えば、LAN(Local Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、及びVAN(Value Added Network)等の通信のためのアダプターを含むことができる。
図2は、図1の弱教師あり客体認識装置にあるプロセスの機能的構成を説明する図である。
図2を参照すると、弱教師あり客体認識装置100は、フィーチャーマップ生成部210、削除フィーチャーマップ生成部230、最終マップ生成部250、及び対照ガイド決定部270を含むことができ、これらは相互連結されることができる。
フィーチャーマップ生成部210は、入力イメージに対する第1コンボリューション演算を実行して、フィーチャーマップ(X)を生成することができる。フィーチャーマップ生成部210は、コンボリューション神経網(CNN)構造で具現化され、イメージを通過させて、各クラスによるフィーチャーマップ(X)を生成することができる。
CNN構造は、各レイヤーの入出力データの形状維持、複数のフィルタでイメージの特徴抽出及び学習、抽出したイメージの特徴を集めて強化するプーリング(pooling)レイヤーで、一般の人工神経網よりも少ない学習パラメータを有する。CNNは、イメージの特徴抽出のために、入力データをフィルタが巡回してコンボリューションを計算し、その計算結果を用いてフィーチャーマップ(Feature map)を生成する。フィーチャーマップは、原本イメージの位置情報を内包し得る。
削除フィーチャーマップ生成部230は、アテンションマップ(A)を生成し、アテンションマップ(A)を介して入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成することができる。削除フィーチャーマップ生成部230は、チャンネル-ワイズプーリング(channel-wise pooling)を介してアテンションマップ(A)を生成することができる。一実施形態において、削除フィーチャーマップ生成部230は、フィーチャーマップ生成部210のバックボーンの中間でフィーチャーマップ(X)をチャンネル-ワイズプーリングを介してアテンションマップ(Attention map)(A)を生成することができる。削除フィーチャーマップ生成部230は、生成されたアテンションマップ(A)で最も特徴的な部分に対するマスク(Mask)を生成し、入力イメージに対するマスキング演算を実行することができる。削除フィーチャーマップ生成部230は、臨界値(θd)をアテンションマップ(A)の最も高い値と掛けて、この値よりも大きい場合、最も特徴的なピクセル部分とみなして、該当ピクセル部分に対するマスクを生成することができる。削除フィーチャーマップ生成部230は、マスクを下記の[数1]を介して生成できる。
Figure 0007166423000002
ここで、Mpixは、マスクに該当し、Aは、アテンションマップに該当する。
削除フィーチャーマップ生成部230は、アテンションマップ(A)で最も特徴的なピクセル部分を領域単位で拡張するために、SxSサイズのカーネルサイズ(kernel size)を有する最大プーリングレイヤー(max pooling layer)をマスク(Mpix)に掛けて、領域別のマスク(M)を生成することができる。削除フィーチャーマップ生成部230は、生成された領域別のマスク(M)を元のフィーチャーマップ(X)に掛けて、削除フィーチャーマップ(-X)を生成することができる。
最終マップ生成部250は、フィーチャーマップ(X)及び削除フィーチャーマップ(-X)に対する第2コンボリューション演算を実行し、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成できる。一実施形態において、最終マップ生成部250は、フィーチャーマップ(X)及び削除フィーチャーマップ(-X)をバックボーンネットワークの残りのコンボリューションレイヤーに通過させて、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成できる。最終マップ生成部250は、学習が進められるほど削除フィーチャーマップ(-X)で削除領域が広がり、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)で客体の全領域をさらに活性化させることができる。
最終マップ生成部250は、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)を介して、入力イメージで互いに異なる地域を活性化し、フォアグラウンドの客体を背景と遠ざかるようにすることができる。最終マップ生成部250は、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)に対して、チャンネル-ワイズプーリング(channel-wise pooling)ベースのアテンションマップ(AF,-AF)を介して、前景マスク(Mfg,-Mfg)及び背景マスク(Mbg,-Mbg)を生成することができる。一実施形態において、最終マップ生成部250は、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)でチャンネル-ワイズプーリングを用いてアテンションマップ(AF,-AF)を生成し、それぞれのアテンションマップで臨界値を用いてマスクを生成し、前景と背景を分離することができる。ここで、最終マップ生成部250は、生成されたマスクを最終のフィーチャーマップ(F)に掛けて、前景フィーチャーマップ及び背景フィーチャーマップを生成することができる。最終マップ生成部250は、フォアグラウンドマスク及びバックグラウンドマスクを下記の[数2]を介して生成できる。
Figure 0007166423000003
ここで、Mfgは、フォアグラウンドマスクに該当し、Mbgは、バックグラウンドマスクに該当し、AFは、チャンネル-ワイズプーリングされたアテンションマップに該当する。τfg及びτbgは、予め定義された臨界値である。
最終マップ生成部250は、フォアグラウンドマスク(Mfg,-Mfg)及びバックグラウンドマスク(Mbg,-Mbg)に基づいて、前景フィーチャーマップ(Ffg,-Ffg)及び背景フィーチャーマップ(Fbg,-Fbg)を生成することができる。一実施形態において、最終マップ生成部250は、前景フィーチャーマップ及び背景フィーチャーマップを下記の[数3]を介して生成できる。
Figure 0007166423000004
ここで、Ffgは、前景フィーチャーマップに該当し、Fbgは、背景フィーチャーマップに該当し、フィーチャーマップ(F)に各マスク(M)を掛けて生成される。
最終マップ生成部250は、前景フィーチャーマップ(Ffg,-Ffg)及び背景フィーチャーマップ(Fbg,-Fbg)を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)を生成することができる。一実施形態において、最終マップ生成部250は、生成された前景と背景のフィーチャーマップ(Ffg,Fbg,-Ffg,-Fbg)を正規の埋め込み空間に投影させて、128次元のベクトルを生成することができる。
最終マップ生成部250は、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)に対して、第3コンボリューション演算を実行してキー(key)、クエリー(query)及びバリュー(value)を生成し、キー、クエリー及びバリューを加重値マトリックス(W)でプロダクト演算し、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)の性能を向上させることができる。一実施形態において、最終マップ生成部250は、加重値マトリックス(W)をキー(k)、クエリー(q)間のホワイトニングドットプロダクト(whitened dot product)演算を介して生成することができ、加重値マトリックス(W)は、下記の[数4]で定義されることができる。
Figure 0007166423000005
ここで、σは、ソフトマックス(softmax)関数であり、μは、各クエリー(q)、キー(k)内のピクセル(i,j)の平均値である。
最終マップ生成部250で最終生成される向上したフィーチャーマップ(F’)は、下記の[数5]を介して生成されることができる。
Figure 0007166423000006
ここで、hは、バッチ正規化を伴う1x1のコンボリューションレイヤーに該当する。
対照ガイド決定部270は、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)に基づいて、入力イメージの前景客体に対する対照ガイド(contrastive guidance)を決定することができる。対照ガイド決定部270は、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)に基づいて生成された多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)のうち、前景フィーチャーベクトル(Zfg,-Zfg)それぞれの背景フィーチャーベクトル(Zbg,-Zbg)間の距離を拡大しながら、前景フィーチャーベクトル(Zfg,-Zfg)間の距離を減少させるように対照ガイド(contrastive guidance)を決定することができる。一実施形態において、対照ガイド決定部270は、対照ガイドの損失(contrastive guidance loss)を用いて、前景フィーチャーベクトル(Zfg)が前景削除フィーチャーベクトル(-Zfg)と近づくように、背景フィーチャーベクトル(Zbg)とは遠ざかるように学習し、前景削除フィーチャーベクトル(-Zfg)も同様に前景フィーチャーベクトル(Zfg)とは近づき、背景削除フィーチャーベクトル(-Zbg)とは遠ざかるように学習できる。対照ガイドの損失は、下記の[数6]で定義されることができる。
Figure 0007166423000007
ここで、
Figure 0007166423000008
は、対照ガイドの損失に該当し、mは、マージンに該当する。
対照ガイドの損失は、対象客体で補完的に見つかった領域を活用し、4重関係(原本及び削除された分岐の前景及び背景フィーチャーマップ)を最適化することができる。従って、全客体を正しい範囲に見つけるようにガイドできる。
図3は、図2の弱教師あり客体認識装置で実行される弱教師あり客体認識の過程を説明するフローチャートである。
図3を参照すると、弱教師あり客体認識装置100は、フィーチャーマップ生成部210を介して入力イメージに対する第1コンボリューション演算を実行してフィーチャーマップ(X)を生成することができる(ステップS310)。弱教師あり客体認識装置100は、削除フィーチャーマップ生成部230を介してフィーチャーマップ(X)でアテンションマップ(A)を生成し、アテンションマップ(A)を介して入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成することができる(ステップS330)。弱教師あり客体認識装置100は、最終マップ生成部250を介して、フィーチャーマップ(X)及び削除フィーチャーマップ(-X)に対する第2コンボリューション演算を実行して、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成することができる(ステップS350)。弱教師あり客体認識装置100は、対照ガイド決定部270を介して、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)に基づいて、入力イメージの前景客体に対する対照ガイド(contrastive guidance)を決定することができる(ステップS370)。
図4は、本発明に係る弱教師あり客体認識のための全フレームワークを説明する図である。
本発明は、弱教師あり客体認識のための既存の方法、CAM(class activation mapping)や、HaS(Hide-and Seek)、ACoL(Adversarial Complementary Leraning)、ADL(Attention-based Dropout Layer)、EIL(Erasing Integrated Leasning)等のAE(adversarial erasing)方法における性能低下を克服するために、AEベースの新たなWSOL(Weakly Supervised Object Localization)のフレームワークを提案する。
図4で見るように、本発明に係るWSOLのフレームワーク400は、SRD(Scheduled Region Drop)構成410、CG(Contrastive Guidance)構成430、PNL(Pairwise Non-Local Block)構成450の三つの核心要素からなり、分類ネットワークを活用し、クラスラベルのみ使用して、対照ガイドの損失と分類の損失で訓練する。
SRD構成410は、領域-レベルに原本フィーチャーマップから最も区別される部分を漸進的に削除し、あまり有益ではない領域を効果的に見つけるようにネットワークを促進する。SRD構成410は、削除分岐(Erased branch)の入力となる削除フィーチャーマップ(-X)を生成する。この分岐は、元の分岐(Original branch)の加重値を共有する。ネットワークは、原本及び削除フィーチャーマップ(X,-X)を同時にフィード-フォワードし、最終のフィーチャーマップ(F,-F)を出力して、補完領域を探索する。
CG構成430は、二重-分岐の前景フィーチャーが共に引かれながら、各背景フィーチャーから遠ざかるように勧奨する。これは、モデルが背景と区別される前景の表現を学習するようにし、活性化が背景に拡張されることを防止する。
また、PNL構成450は、フィーチャーマップのピクセル間の関係を学習してネットワークを加速化し、最も独特の領域の他の関連部分を見つける。PNL構成450は、ピクセル関係間のコンテキスト情報(contextual information)を学習して、向上したフィーチャーマップを生成する。向上したフィーチャーマップは、対照損失を計算するための対照ガイドに対する入力に提供する。対照ガイドの損失
Figure 0007166423000009
は、活性化マップを背景に拡散させず、全体の客体領域を探索するようにネットワークをガイドする。
本発明に係るWSOLのフレームワーク400をなす各構成について、以下でより具体的に説明する。
SRD(Scheduled Region Drop)
敵対的削除を使用する既存のWSOL方法は、ピクセルレベルで最も区別される部分を削除し、削除フィーチャーマップを生成する。しかし、ピクセルレベルのドロップのみ使用して最も有益な部分に隣接したピクセルを完全に除去することは難しい。このような残りの情報のピクセルは、削除された分岐が補完領域(すなわち、対象客体の区別が少ない部分)を見つけることを妨げる。差別化された領域をより効果的に除去するために、領域別の削除戦略を提案する。
まず、チャンネル-ワイズプーリングを介して、原本フィーチャーマップ(X)のアテンションマップ
Figure 0007166423000010
を得る。それから、次のようにピクセルレベルの二進マスク
Figure 0007166423000011
を生成する。
Figure 0007166423000012
τは、アテンションマップ(A)の最も高い値と予め定義されたドロップ臨界値(θ)との積で表す。
Mpixの各ピクセルをSxS二乗領域のサイズに拡張し、領域ドロップのマスク(M)を生成する。具体的に、(S,S)のカーネルサイズを有する最大のプーリング階層をMpixに適用する。
最後に、削除フィーチャーマップ(-X)は、フィーチャーマップ(X)とマスク(M)との間のスペイシャル-ワイズマルチプリケーション(spatial-wise multiplication)により生成される。フィーチャーマップ(X)と削除フィーチャーマップ
Figure 0007166423000013
はいずれも加重値を共有するネットワークの以降のレイヤーに同時に供給される。また、固定されたドロップ臨界値(θ)が不安定な性能を誘発することを観察した。削除分岐は、広い範囲で最も区別される部分を捨てるため(すなわち、地域レベルの下落)、初期の訓練ステップで分類するのに困難をきたす。この問題を解決するために、減少臨界値を1からθまで線形的に減少させて、訓練を始める際に、二重分岐間の不一致を減らす。全般的に、SRD構成410は、図5のように、削除領域を漸進的に増やし、区別が少ない領域への活性化を成功的に拡張する。
図5は、原本分岐と削除分岐のフィーチャーマップにおける活性化の変化を示す図である。
図5において、学習が進められるほど削除フィーチャーマップ
Figure 0007166423000014
で削除領域が広がり、最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ
Figure 0007166423000015
で客体の全領域をより活性化させる。
CG(Contrastive Guidance)
対照学習は、肯定的な対を引き込み、否定的な対を押し出すことによって、意味のある表現を学習することを目標とする。同様に、この対照学習の概念を使用するために、図6のように前景を正の対で、背景を負の対で構成する。
図6は、前景及び背景フィーチャーマップを正規の埋め込み空間に投影させて、多次元のベクトルを生成する図である。
図6において、最終のフィーチャーマップ
Figure 0007166423000016
の前景と背景は、それぞれ元のフィーチャーマップ(X)及び削除フィーチャーマップ
Figure 0007166423000017
がある二重分岐でエンコーディングされる。チャンネル-ワイズプーリングを介して生成されたアテンションマップ(AF)の強度を臨界値に指定し、前景及び背景マスク(Mfg,Mbg)を生成する。それから、各マスクを掛けた前景及び背景フィーチャーマップ(Ffg,Fbg)を生成する。
Figure 0007166423000018
Figure 0007166423000019
ここで、τfg及びτbgは、予め定義された臨界値である。各前景及び背景フィーチャーマップは、投影ヘッドを使用し、正規化された埋め込み空間に投影される。ReLU(Rectified Linear Unit)活性化がある2個の1x1コンボリューションレイヤーで構成され、それぞれの128次元のフィーチャーベクトル
Figure 0007166423000020
を出力する。公式的に対照ガイドの損失は、次のように提供される。
Figure 0007166423000021
ここで、mは、マージンを示す。損失関数は、背景間の距離を拡大しながらZbg
Figure 0007166423000022
の表現間の距離を減らすように勧奨する。対象客体の全体範囲内で多様な補完前景をマイニングすることができる。
PNL(Pairwise Non-Local Block)
本発明では、PNL構成450を使用し、最終のフィーチャーマップ
Figure 0007166423000023
で対象客体領域に関するピクセル-別の関係を強化する。対照ガイド及び分類器に提供される向上したフィーチャーマップを生成する。フィーチャーマップ
Figure 0007166423000024
は、クエリー、キー及びバリューをそれぞれ示す
Figure 0007166423000025
に3つの1x1コンボリューションレイヤーに投影される。加重値マトリックス
Figure 0007166423000026
は、q、kのホワイトニング内的演算により得た各ピクセル間の類似度を示す。
Figure 0007166423000027
ここで、σは、softmax関数であり、μ,μは、それぞれq,kの各ピクセルi,jの空間の平均値である。その後、向上したフィーチャーマップ
Figure 0007166423000028
は、次のように生成される。
Figure 0007166423000029
ここで、h()は、バッチ正規化が伴われる1x1コンボリューションレイヤーを示す。
PNL構成450は、クエリーとキーピクセルとの間の正規化された差異を最適化し、クラス別領域の類似性を考慮し、参席する場所を学習する。従って、分類器及び対照ガイドに有益な端緒を提供する。
以下で、既存の方法を遥かに凌ぐ広範囲な実験を通じて、本発明で提案した新たなWSOLのフレームワーク400の効率性を確認する。
実験
1)実験設定
データセット(Datasets)
CUB-200-2011、ImageNetの二つのベンチマークで提案された方法を評価し、訓練のためにイメージレベルのラベルのみ提供される。CUB-200-2011は、訓練セットのための5,994個のイメージと、テストセットのための5,794個のイメージで構成された200種の鳥(bird)を含む。ImageNetには、それぞれ訓練及び検証セットに対する120万、並びに50,000個のイメージが含まれた1,000個のクラスがある。
評価指標
Top-1 localization(Top-1 Loc)、GT-known localization(GT-Loc)及びMaxBoxAccV2を活用して方法を評価する。Top-1 Locは、IoU 0.5以上の境界箱を含む正しく分類されたイメージの割合を正解値(ground truth)と共に示す。GT-Locは、IoUが50%より大きい場合、予測された箱が正しいものとみなされる割合を測定する。MaxBoxAccV2は、境界箱を生成するための最適の臨界値を検索し、三つのIoU基準(0.3,0.5,0.7)で位置識別の性能を平均化する。
具現の細部情報
VGG16、InceptionV3、ResNet50の三つのバックボーンネットワークで方法を構築する。全てのネットワークは、ImageNetの事前訓練された加重値をロードして訓練を始める。本発明のPNLとCGは、分類器の前に挿入される。ドロップ臨界値θをCUBデータセットの場合は0.8、ImageNetデータセットの場合は0.9に設定した。前景τfg及び背景τbgの臨界値は、VGG16の場合、0.9、0.8に設定される。補完領域を抽出するために、最後のドロップ臨界値と共に予定された領域のドロップのみ活用する。
2)切り離す研究
提案された構成要素に対する切り離す研究は、CUB-200-2011のデータセットでVGG16で実行される。
提案された各構成要素の効果
全体の対象客体を位置識別するために三つの構成要素を提案する。下記の表1は、フレームワークにおける個別要素の効率性を示す。
Figure 0007166423000030
対照ガイド(CG)がない場合には、全体の設定よりもMaxBoxAccV2の側面で6.19%低い性能を達成し、特に、IoU 0.7で12.30%低下する。全体客体を位置識別するために、ネットワークに与えられたイメージの背景領域に対するガイドを提供することが必要である。削除フィーチャーマップ生成(SRD)はまた、性能を3.32%向上させる。フレームワークのPNLを除いては、性能が2.96%減少し、二つの要素に比べて性能低下が最も少ない。その結果、全ての構成要素を使用する際に最高の性能を示す。
SRDの位置及びサイズ
まず、削除位置が性能に及ぼす影響を分析する。下記の表2のように、conv4_3のレイヤーの後にSRDを挿入する際に、最も優れる性能を示す。しかし、初期のレイヤー(pool2,pool3)に位置したSRDの場合、性能が少し低下する。以前の研究で議論したように、以前のレイヤーが一般機能を抽出し、フィーチャーマップでローカルに区別される部分(例えば、縁、角)を活性化するためである。
Figure 0007166423000031
また、下記の表3で削除された領域のブロックサイズによる性能を調査した。ドロップ臨界値を0.8に、ブロックサイズを3に設定し、最上の性能を示した。原本フィーチャーマップで過度な情報を消すため、性能が低下する。
Figure 0007166423000032
本発明のSRDは、削除領域を漸進的に増加させるが、削除された分岐は、対象客体に対する充分な端緒なく対照ガイドの損失及び分類の損失を最適化するのに困難をきたすと考える。
既存の対照損失及び当社のCG損失との比較
下記の表4は、CG損失を既存の対照損失(すなわち、InfoNCE損失)に代替した結果を示す。
Figure 0007166423000033
実験の結果、本発明の方法は、InfoNCEの損失を使用しても、7.7%の大きなマージンで、既存のWSOLの性能を依然として凌ぐことが示された。しかし、IoU 0.7で、本発明のw/CG(最後の行)よりも遥かに劣る。また、対照ガイドの損失がない本発明の性能は、IoU 0.7で深刻に低下する。これは、本発明の対照ガイドの損失が全体客体をうまくカバーするために、既存の対照損失よりもネットワークに適切なガイドを提供することを示す。また、対照学習(三番目の行)で二重分岐の効果も検証する。Ours+は、原本フィーチャーマップの背景のみ負数サンプルとして使用する。削除フィーチャーマップの背景を捨てると、性能が落ちることを示す。結果として、削除フィーチャーマップの背景は、対象客体の境界内で活性化を拡張して、少なく区別される部分を見つけるのに重要な役割をする。
3)最新の方法との比較
MaxBoxAccV2、GT-known Loc及びTop-1 Locの側面で、CUB-200-2011及びImageNetのデータセットに対するWSOLの最新の方法と、本発明の方法とを比較する。
MaxBoxAcv2.下記の表5で、本発明の方法は、三つのバックボーンに対するMaxBoxAccV2の側面で、CUB及びImageNetのデータセットの別の全ての方法よりも性能に優れている。
Figure 0007166423000034
本発明は、CUB(+13.1%)とImageNet(+1.6%)で目立つ改善を達成した。特に、本発明の方法は、CUB-InceptionV3のInCAよりも15.5%、ImageNet-VGG16のMinMaxCAMよりも3.1%向上した。
GT-known Loc及びTop-1 Loc.下記の表6は、既存のマトリックスを使用した定量的結果を示す。
Figure 0007166423000035
CUB及びImageNetのデータセットの全てで、本発明の方法は、GT-Loc、Top-1 Locに関する最先端の性能を達成する。
4)定性的結果
図7は、本発明に係るWSOLのフレームワークのImageNet及びCUB-200-2011のデータセットに対する定性的結果を示す図面であって、実測の箱は実線で、予測の箱はその近傍の点線で表示した。
図7で、本発明の方法は、全体客体を正しく位置識別し、実際と比べて、厳格な境界箱を出力する。訓練ステップで、SRD及び対照ガイドの損失を使用して背景領域を制限する。従って、本発明の方法は、少なく区別される部分に拡散されるだけでなく、背景で活性化を抑制する。
図8は、既存の方法に対して、本発明に係る弱教師あり客体認識の結果を示す例示図である。
図8に示すように、イメージに対する弱教師あり客体認識の既存の方法(ACoL, EIL)は、客体の最も特徴的な部分の領域のみを認識するか、客体のより広い領域を認識するために、最も特徴的な部分を消した後に学習しても、背景まで認識して、広すぎる部分を認識するため、客体認識の正確度が落ちる。反面、本発明の方法(Ours)は、最も特徴的な部分の学習が進められるに従って、ますます広い領域を消すSRD(Scheduled Region Drop)、二重-分岐から抽出した最終のフィーチャーマップ及び最終の削除フィーチャーマップで互いに異なる地域を活性化し、各フィーチャーマップの前景と背景を分けて、前景同士は類似するようにし、背景とは遠ざかるようにし、前景と背景のフィーチャーを学習するCG(Contrastive Guidance)、CG及び分類器にさらに向上したフィーチャーマップを提供するPNL(Pairwise Non-Local)ブロックを介して、客体の前景全体を認識して背景を抑制し、正確な客体の領域を検出することができる。
本出願の好ましい実施形態を参照として説明したが、当該技術分野の熟練した通常の技術者は、下記の特許請求の範囲に記載された本発明の思想及び領域から外れない範囲内で、本出願を多様に修正及び変更させ得ることを理解できるはずである。
100 弱教師あり客体認識装置
110 プロセッサ
130 メモリ
150 ユーザ入出力部
170 ネットワーク入出力部
210 フィーチャーマップ生成部
230 削除フィーチャーマップ生成部
250 最終マップ生成部
270 対照ガイド決定部
400 本発明で提案したWSOLのフレームワーク
410 SRD(Scheduled region drop)構成
430 CG(Contrastive guidance)構成
450 PNL(Pair-wise Non-Local)構成

Claims (14)

  1. 入力イメージに対する第1コンボリューション演算を実行してフィーチャーマップ(X)を生成するフィーチャーマップ生成部と、
    前記フィーチャーマップ(X)でアテンションマップ(A)を生成し、前記アテンションマップ(A)を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成する削除フィーチャーマップ生成部と、
    前記フィーチャーマップ(X)及び前記削除フィーチャーマップ(-X)に対する第2コンボリューション演算を実行して最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成する最終マップ生成部と、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて、前記入力イメージのフォアグラウンド客体に対する対照ガイド(contrastive guidance)を決定する対照ガイド決定部と、を含む、ことを特徴とする弱教師あり客体認識装置(Weakly Supervised Object Localization Apparatus)。
  2. 前記削除フィーチャーマップ生成部は、
    前記フィーチャーマップ(X)をチャンネル-ワイズプーリング(channel-wise pooling)を介して、前記アテンションマップ(A)を生成する、ことを特徴とする請求項1に記載の弱教師あり客体認識装置。
  3. 前記削除フィーチャーマップ生成部は、
    前記アテンションマップ(A)で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行する、ことを特徴とする請求項2に記載の弱教師あり客体認識装置。
  4. 前記最終マップ生成部は、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)を介して、前記入力イメージで互いに異なる地域を活性化し、前記フォアグラウンド客体を背景と遠ざかるようにする、ことを特徴とする請求項1に記載の弱教師あり客体認識装置。
  5. 前記最終マップ生成部は、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、チャンネル-ワイズプーリング(channel-wise pooling)ベースのアテンションマップ(AF,-AF)を介して、フォアグラウンドマスク(Mfg,-Mfg)及びバックグラウンドマスク(Mbg,-Mbg)を生成する、ことを特徴とする請求項4に記載の弱教師あり客体認識装置。
  6. 前記最終マップ生成部は、
    前記フォアグラウンドマスク(Mfg,-Mfg)及び前記バックグラウンドマスク(Mbg,-Mbg)に基づいて、前景フィーチャーマップ(Ffg,-Ffg)及び背景フィーチャーマップ(Fbg,-Fbg)を生成する、ことを特徴とする請求項5に記載の弱教師あり客体認識装置。
  7. 前記最終マップ生成部は、
    前記前景フィーチャーマップ(Ffg,-Ffg)及び前記背景フィーチャーマップ(Fbg,-Fbg)を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)を生成する、ことを特徴とする請求項6に記載の弱教師あり客体認識装置。
  8. 前記最終マップ生成部は、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、第3コンボリューション演算を実行してキー、クエリー及びバリュー(k,q,v)を生成し、前記キー、クエリー及びバリューを加重値マトリックス(W)でプロダクト演算して、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)の性能を向上させる、ことを特徴とする請求項4に記載の弱教師あり客体認識装置。
  9. 前記対照ガイド決定部は、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて生成された多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)のうち、前景フィーチャーベクトル(Zfg,-Zfg)それぞれの背景フィーチャーベクトル(Zbg,-Zbg)間の距離を拡大しながら、前記前景フィーチャーベクトル(Zfg,-Zfg)間の距離を減少させるように、前記対照ガイド(contrastive guidance)を決定する、ことを特徴とする請求項1に記載の弱教師あり客体認識装置。
  10. 入力イメージに対する第1コンボリューション演算を実行してフィーチャーマップ(X)を生成するフィーチャーマップ生成ステップと、
    前記フィーチャーマップ(X)でアテンションマップ(A)を生成し、前記アテンションマップ(A)を介して前記入力イメージに対するマスキング演算を実行して削除フィーチャーマップ(-X)を生成する削除フィーチャーマップ生成ステップと、
    前記フィーチャーマップ(X)及び前記削除フィーチャーマップ(-X)に対する第2コンボリューション演算を実行して最終のフィーチャーマップ(F)及び最終の削除フィーチャーマップ(-F)をそれぞれ生成する最終マップ生成ステップと、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて前記入力イメージのフォアグラウンド客体に対する対照ガイド(contrastive guidance)を決定する対照ガイド決定ステップと、を含む、ことを特徴とする弱教師あり客体認識方法(Weakly Supervised Object Localization Method)。
  11. 前記削除フィーチャーマップ生成ステップは、
    前記フィーチャーマップ(X)をチャンネル-ワイズプーリング(channel-wise pooling)を介して、前記アテンションマップ(A)を生成するステップ、及び
    前記アテンションマップ(A)で最も特徴的な部分に対するマスクを生成し、前記入力イメージに対するマスキング演算を実行するステップを含む、ことを特徴とする請求項10に記載の弱教師あり客体認識方法。
  12. 前記最終マップ生成ステップは、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、チャンネル-ワイズプーリング(channel-wise pooling)ベースのアテンションマップ(AF,-AF)を介して、フォアグラウンドマスク(Mfg,-Mfg)及びバックグラウンドマスク(Mbg,-Mbg)を生成するステップと、
    前記フォアグラウンドマスク(Mfg,-Mfg)及び前記バックグラウンドマスク(Mbg,-Mbg)に基づいて、前景フィーチャーマップ(Ffg,-Ffg)及び背景フィーチャーマップ(Fbg,-Fbg)を生成するステップと、
    前記前景フィーチャーマップ(Ffg,-Ffg)及び前記背景フィーチャーマップ(Fbg,-Fbg)を正規の埋め込み空間に投影させて、多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)を生成するステップと、を含む、ことを特徴とする請求項10に記載の弱教師あり客体認識方法。
  13. 前記最終マップ生成ステップは、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に対して、第3コンボリューション演算を実行してキー(k)、クエリー(q)及びバリュー(v)を生成し、前記キー(k)、クエリー(q)及びバリュー(v)を加重値マトリックス(W)でプロダクト演算し、前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)の性能を向上させる、ことを特徴とする請求項10に記載の弱教師あり客体認識方法。
  14. 前記対照ガイド決定ステップは、
    前記最終のフィーチャーマップ(F)及び前記最終の削除フィーチャーマップ(-F)に基づいて生成された多次元のフィーチャーベクトル(Zfg,Zbg,-Zfg,-Zbg)のうち、前景フィーチャーベクトル(Zfg,-Zfg)それぞれの背景フィーチャーベクトル(Zbg,-Zbg)間の距離を拡大しながら、前記前景フィーチャーベクトル(Zfg,-Zfg)間の距離を減少させるように前記対照ガイド(contrastive guidance)を決定する、ことを特徴とする請求項10に記載の弱教師あり客体認識方法。
JP2021192584A 2021-09-27 2021-11-26 弱教師あり客体認識装置及び方法 Active JP7166423B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0127014 2021-09-27
KR1020210127014A KR102583518B1 (ko) 2021-09-27 2021-09-27 약지도 객체인식 장치 및 방법

Publications (2)

Publication Number Publication Date
JP7166423B1 true JP7166423B1 (ja) 2022-11-07
JP2023048062A JP2023048062A (ja) 2023-04-06

Family

ID=83931119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021192584A Active JP7166423B1 (ja) 2021-09-27 2021-11-26 弱教師あり客体認識装置及び方法

Country Status (3)

Country Link
US (1) US12026909B2 (ja)
JP (1) JP7166423B1 (ja)
KR (1) KR102583518B1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101879207B1 (ko) * 2016-11-22 2018-07-17 주식회사 루닛 약한 지도 학습 방식의 객체 인식 방법 및 장치
CN110659589B (zh) * 2019-09-06 2022-02-08 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、系统、装置
KR102187302B1 (ko) * 2020-01-13 2020-12-04 서강대학교 산학협력단 보행자 패션 정보를 이용한 보행자 검색 시스템 및 보행자 검색 방법
KR102537947B1 (ko) * 2020-10-16 2023-05-26 연세대학교 산학협력단 약한 지도학습 기반 객체 위치 검출 방법 및 장치
GB202017369D0 (en) * 2020-11-02 2020-12-16 Tomtom Global Content Bv Neural network models for semantic image segmentation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Erik Stammes et al.,Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised Semantic Segmentation,Thirteenth International Conference on Digital Image Processing(ICDIP 2021),2021年06月30日,pp.1-11
ERIK STAMMES ET AL.: "Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised Semantic Segmentation", THIRTEENTH INTERNATIONAL CONFERENCE ON DIGITAL IMAGE PROCESSING(ICDIP 2021), JPN7022004845, 30 June 2021 (2021-06-30), pages 1 - 11, ISSN: 0004898858 *
Xiaolin Zhang et al.,Adversarial Complementary Learning for Weakly Supervised Object Localization,Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018年06月22日,pp.1325-1334
XIAOLIN ZHANG ET AL.: "Adversarial Complementary Learning for Weakly Supervised Object Localization", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR), JPN6022043327, 22 June 2018 (2018-06-22), pages 1325 - 1334, XP033476095, ISSN: 0004898857, DOI: 10.1109/CVPR.2018.00144 *

Also Published As

Publication number Publication date
KR102583518B1 (ko) 2023-09-27
KR20230044649A (ko) 2023-04-04
JP2023048062A (ja) 2023-04-06
US20230098817A1 (en) 2023-03-30
US12026909B2 (en) 2024-07-02

Similar Documents

Publication Publication Date Title
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
Rani et al. Three dimensional objects recognition & pattern recognition technique; related challenges: A review
US7672915B2 (en) Method and system for labelling unlabeled data records in nodes of a self-organizing map for use in training a classifier for data classification in customer relationship management systems
Chen et al. Learning deep features for image emotion classification
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
EP1903479A1 (en) Method and system for data classification using a self-organizing map
Kazmi et al. Wavelets-based facial expression recognition using a bank of support vector machines
CN101877064A (zh) 图像分类方法及图像分类装置
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
Lorang et al. Digital libraries, intelligent data analytics, and augmented description: A demonstration project
CN113869352A (zh) 模型训练方法、服装检索方法及相关装置
Mayer et al. Adjusted pixel features for robust facial component classification
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
Maity et al. Selfdocseg: A self-supervised vision-based approach towards document segmentation
Karappa et al. Detection of sign-language content in video through polar motion profiles
CN112529078A (zh) 一种业务处理方法、装置及设备
JP7166423B1 (ja) 弱教師あり客体認識装置及び方法
Zhao et al. Multi-view dimensionality reduction via subspace structure agreement
Sert et al. Recognizing facial expressions of emotion using action unit specific decision thresholds
López-Sánchez et al. A CBR system for efficient face recognition under partial occlusion
Wan et al. One-shot unsupervised domain adaptation for object detection
Zare et al. A survey on semi-automated and automated approaches for video annotation
Du et al. Exploiting competition relationship for robust visual recognition
Saifullah et al. DocXClassifier: Towards a Robust and Interpretable Deep Neural Network for Document Image Classification
Zhang et al. Occlusion-Aware Manga Character Re-identification with Self-Paced Contrastive Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221025

R150 Certificate of patent or registration of utility model

Ref document number: 7166423

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150