JP7373624B2 - 画像ブロックのスコアに基づく細粒度画像分類の方法及び装置 - Google Patents

画像ブロックのスコアに基づく細粒度画像分類の方法及び装置 Download PDF

Info

Publication number
JP7373624B2
JP7373624B2 JP2022130509A JP2022130509A JP7373624B2 JP 7373624 B2 JP7373624 B2 JP 7373624B2 JP 2022130509 A JP2022130509 A JP 2022130509A JP 2022130509 A JP2022130509 A JP 2022130509A JP 7373624 B2 JP7373624 B2 JP 7373624B2
Authority
JP
Japan
Prior art keywords
classification
image
local
fine
image blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022130509A
Other languages
English (en)
Other versions
JP2023134327A (ja
Inventor
慧 蘇
修生 盧
聡 王
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2023134327A publication Critical patent/JP2023134327A/ja
Application granted granted Critical
Publication of JP7373624B2 publication Critical patent/JP7373624B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

〈関連出願の相互参照〉
本発明は2022年3月14日に中国特許庁へ提出された出願番号202210244194.4、発明名称「画像ブロックのスコアに基づく細粒度画像分類の方法及び装置」の中国特許出願に基づき優先権を主張しており、その全ての内容は、ここに援用される。
本発明は、画像分類の技術分野に関し、特に、画像ブロックのスコアに基づく細粒度画像分類の方法及び装置に関する。
細粒度分類(Fine-grained Classification)は、同一クラスの画像に基づき、鳥の種類、服のスタイル、犬の種類といったより細かいサブクラスに分類するものである。現実の生活では、様々なサブクラスを識別するためのアプリケーションの需要が非常に大きい。例えば、生態環境では、様々な種類の生物を識別することによってより効率的に生態を保護し、小売業界では、商品の顧客に取得/試用される回数を自動的に識別することによって統計データによって製品の反復をサポートし、監視業界では、通過車両の種類を分類することによってより良い都市管理を実現する。細粒度分類タスクは、その幅広い適用価値により、コンピュータービジョンの分野で注目されている研究方向である。これにより、細粒度画像分析の方向には、様々な典型的なデータセットが生成された。例えば、犬類のデータセットであるStanford Dogs、花類のデータセットであるOxford Flowers、航空機のデータセットであるAircrafts、及び自動車のデータセットであるStanford Cars等である。
一般的に、同一クラス内の異なるサブクラス間には、鳥の口のような小さい部分に微小な違いがあり、同じサブクラス内には、姿勢、背景、照明、遮蔽などに影響されて大きな違いがあることがよくある。細粒度画像のクラス内の大きな違いと、クラス間の類似性は、分類タスクの難しさ及び課題を増大させている。現在、既存の細粒度分類方法は、主に、領域の特定に基づく方法と、特徴コーディングに基づく方法の2つの側面から検討されている。領域の特定に基づく方法は、主に、強い教師または弱い教師の方法を使用して、サブクラスを判別するための識別領域を特定し、これらの識別領域を元の画像から抽出して、ネットワークに送り返し、識別領域の特徴と画像のグローバルな特徴とを融合して分類に用いる。特徴コーディングに基づく方法は、一般的に、バイリニアプーリング法(Bilinear pooling method)により画像の高次情報を取得することにより、画像のより詳細な特徴を取得する。これらの方法は、主に、従来の畳み込みニューラルネットワーク(Convolutional Neural Network)を用いて分類し、細粒度分類用の識別領域とコーディング特徴とを取得するためには、複雑な分岐構造を追加して構築する必要がある。また、畳み込みニューラルネットワークでは、全体の特徴スケールが、ネットワークの深度が深くなるのに伴って減少するため、取得される識別領域を元の画像または浅層の特徴から抽出して、ネットワーク構造に送信して、さらに情報を抽出する必要がある。その結果、モデルの複雑性が高くなり、手間がかかる。
近年、トランスフォーマー(transformer)ネットワーク構造のマルチヘッドセルフアテンション(Multi-headed Self-attention)メカニズムの長期依存能力(Long-Term Dependency)は、従来の畳み込みニューラルネットワークがグローバルな特徴を捉えるのに不十分であるという欠点を補うことができる。トランスフォーマーモデルの強力なモデリング能力をコンピュータビジョンの分野に適用するため、多くの研究が開始され、コンピュータビジョンの分野で革新が達成されている。現在、トランスフォーマーは、分類、検出、分割などの複数のビジョンタスクで強力な性能を発揮しており、超解像、画像検索、画像テキスト検索などのタスクも、トランスフォーマーにおいて人気のある研究方向になっている。トランスフォーマーネットワークを如何に効果てきに細粒度分類に適用できるかについて予備研究が行われている。しかしながら、既存の方法では、トランスフォーマーのセルフアテンションメカニズムにより、細粒度分類用の識別領域を選ぶことは考慮されたが、ネットワークによって入力された画像ブロックの配列が長い場合、セルフアテンションメカニズムの長期依存能力により特徴を捉える能力が制限され、識別領域に対する判定能力が低下し、細粒度分類の精度が低下する、というトランスフォーマーネットワークの固有の欠陥は、考慮されていない。
よって、画像ブロックのスコアリングに基づく細粒度画像分類の方法及び装置を設計することにより、上記の技術的課題を解決する。
本発明は、主に、クラス内の差異が大きく、クラス間に類似性が高いという細粒度画像分類の問題を解決するために、画像ブロックのスコアリングに基づく細粒度画像分類の方法及び装置を提供することを目的とする。
本発明に係る技術案は以下の通りである。
画像ブロックのスコアに基づく細粒度画像分類の方法であって、
分類しようとする目標画像を取得し、分類データセットを構築するステップS1と、
前記分類データセットをいくつかの重複しない画像ブロックに分割し、前記画像ブロックをコーディングしてローカル標識を構築するステップS2と、
前記ローカル標識により分類標識を構築するステップS3と、
前記ローカル標識を前記分類標識とともにトランスフォーマーネットワークに送入し、トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層により、画像分類特徴情報及び各画像ブロック特徴情報を取得するステップS4と、
前記ローカル標識と前記分類標識との関連性を判定し、前記分類標識との関連性が最も高いいくつかの前記ローカル標識を選択して、関連性ローカル標識を構築するステップS5と、
画像ブロックのスコアリングシステムを構築し、前記関連性ローカル標識をスコアリングし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップS6と、
分類標識と選択標識の特徴を接合して最後のトランスフォーマー層に送入し、特徴処理を行うステップS7と、
前記ステップS7の特徴処理の結果により全接続層及びクロスエントロピー損失(Cross Entropy Loss)を構築して分類訓練を行うとともに、ステップS6における前記関連性ローカル標識のスコア分布により相対エントロピー発散損失関数(Relative Entropy Divergence Loss Function)を構築して補助訓練を行うステップS8と、
前記ステップS8で訓練されたモデルについて、最後のトランスフォーマー層以外のすべての層を固定し、最後のトランスフォーマー層のみに対して、前記グローバル標識と前記関連性ローカル標識とが接合され最後のトランスフォーマー層が訓練される微調整操作を行うステップS9と、
を備える画像ブロックのスコアに基づく細粒度画像分類の方法。
さらに、前記ステップS1において、前記分類データセットは、サンプルと属性分類ラベルとを含む。
さらに、前記ステップS2において、前記分類データセットは、ウィンドウをスライドさせる方法によっていくつかの重複しない画像ブロックに分割され、前記画像ブロックに対して畳み込み操作を行うことによりローカル標識が構築され、畳み込み層のカーネル幅、カーネルの高さ、およびステップサイズは、前記画像ブロックの幅、及び高さに等しい。
さらに、前記ステップS3において、前記ローカル標識にサイズが一致する訓練可能な分類標識を、分類標識として構築する。
さらに、前記ステップS5において、前記ローカル標識と前記分類標識との関連性を判定する判定方法としては、トランスフォーマーネットワークの注意メカニズムにより判定を行う方法を用いるものである。
さらに、前記ステップS6は、サブステップとして以下のステップS61~S63を備える。
1つのトランスフォーマー層と、出力次元が1である1つの全接続層とを別体に構築するステップS61と、
前記関連性ローカル標識を、別体に構築された前記トランスフォーマー層と出力次元が1である前記全接続層とに送入し、出力結果に対してソフトマックス(softmax:指数正規化操作)操作を行うステップS62と、
ソフトマックス(指数正規化操作)操作後の値を前記関連性ローカル標識のスコアとし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップS63である。
さらに、前記ステップS8の訓練前には、前記ステップS7の特徴処理結果により、1つの画像ブロックをランダムに選択し、いくつかの異なるランダム前処理を行いて前処理画像ブロックを取得し、いくつかの前記前処理画像ブロックは、輝度、コントラスト、彩度のみが異なり、前記前処理画像ブロックは、ネットワーク入力として入力されることにより、全接続層及びクロスエントロピー損失を構築して分類訓練を行う。
さらに、前記微調整操作は、クロスエントロピー損失関数による微調整操作である。
本発明は、画像ブロックのスコアに基づく細粒度画像分類の装置であって、実行可能なコードが格納される記憶部と、前記実行可能なコードの実行時に、上記いずれか1項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するための1つまたは複数のプロセッサと、を備える画像ブロックのスコアに基づく細粒度画像分類の装置をさらに提供する。
本発明は、プロセッサによって実行される時に、上記いずれか1項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するプログラムが格納されるコンピュータ読み取り可能な記憶媒体をさらに提供する。
本発明の有益な効果は、以下の通りである。本発明は、トランスフォーマー構造を分類のベース構造とし、画像を全過程で複数の画像ブロックに分割し、画像の全体サイズがネットワーク深度の深化に伴って減少しないトランスフォーマーネットワークの特徴を利用する。トランスフォーマー構造における自己注意メカニズムにより、グローバルな特徴をローカルな特徴に関連付け、サブクラスに促進作用を有する画像ブロックを選別する。本発明は、トランスフォーマー構造の自己注意メカニズムは、長期依存能力により特徴を捉える能力の精度が不足しているという問題に対して、スコアリングシステムを構築し、選択された画像ブロックに対して二次精細化スコアリングを行い、各画像ブロックのスコアに応じてグローバル特徴と各画像ブロック特徴とを融合して分類を行う。本発明に係る方法は、実施が簡単であり、トランスフォーマーネットワークにおいてプラグアンドプレイすることができ、効果が明らかに向上される。
図1は本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法の構造概略図である。 図2は本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法の解釈可能性分析の比較図である。 図3は、CUB鳥データセットに対する、VITベースの構造と本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法との試験結果である。 図4は、本発明に係る画像ブロックのスコアに基づく細粒度画像分類の装置の構造図である。
以下、少なくとも1つの例示的な実施例の説明は、実際に例示的なもののみであり、本発明及びその適用や使用を限定するものではない。本発明における実施例に基づいて、当業者が創造的な労働をすることなく得られた他の全ての実施例は、本発明の保護範囲に属する。
図1は、本発明に係る画像ブロックのスコアリングに基づく細粒度画像分類の方法の構造概略図である。本発明に係る方法は、訓練中に、L-1層を通過した後に得られた特徴に対して、トランスフォーマー構造を利用して自己注意(セルフアテンション)メカニズムにより、分類に最大の影響を与えるtop-n個のローカル標識を選別し、選別されたtop-n個のローカル標識に対して画像ブロックのスコアリングメカニズムにより識別性精細スコアリングを行い、そのスコア値を利用してtop-n個のローカル標識を融合して選択標識を生成する。次に、分類標識と選択標識とを接合して最後のトランスフォーマー層へ一緒に送入する。
実施例
本方法は、Pytorchフレームを用いて実験を行い、CUB鳥類データに対して、初期学習率が0.03で、運動量が0.9であるSGDオプティマイザー(SGD最適化アルゴリズム)を使用する。訓練課程において、画像サイズを600*600に調整してから、448*448のサイズまでランダムに抽出するとともに、画像の輝度を元の輝度を基準にランダムに50%変動させ、コントラストを元のコントラストを基準にランダムに50%変動させ、彩度を元の彩度を基準にランダムに40%変動させ、画像をランダムに左右に反転させる。画像データの画素値の範囲を0~1に調整した後、R、G、Bの3つのチャネルに対してそれぞれ、平均値0.485、0.456、0.406、分散0.229、0.224、0.225で正規化操作を行う。訓練及びfinetune(微調整)のプロセスは、4つのgpu分散型訓練を統一し、各gpuのバッチサイズ(batch size)は8であり、10,000ステップ数を訓練する。訓練課程において、最初の500ステップ数は、学習率(Learning Rate)を予熱するために使用され、余弦減衰を学習率減衰法として採用する。本実施のすべての実験負荷ViT-B_16は、ImageNet21Kデータセット上で事前に訓練されたモデルに基づいて、訓練される。
テスト過程において、まず、画像サイズを600*600に調整し、中央から448*448サイズの画像を抽出する。画像データの画素値の範囲を0~1に調整した後、R、G、Bの3チャネルに対して、それぞれ平均値0.485、0.456、0.406、分散0.229、0.224、0.225で正規化操作を行う。
画像ブロックスコアリングに基づく細粒度画像分類の方法は、ステップS1~S9を備える。
ステップS1では、分類対象の目標画像を取得し、分類データセットを構築する。
具体的には、合計1.2万枚の鳥類分類データセットが構築され、鳥類分類データセットは、合計200個のクラスがあり、各クラスには、60個のサンプル(CUB公開データセット)がある。サンプルがN=1,2000でありクラスがK=200の場合、鳥データ
ステップS2では、前記分類データセットを複数の重複しない画像ブロックに分割し、前記画像ブロックをコーディングしてローカル標識(part token)を構築する。
具体的には、鳥類分類データセットを調整して、ウィンドウをスライドさせる方法で、幅方向*高さ方向に28個*28個に分割し、合計784個で、画素数16ピクセルの、重複しない画像ブロックに分割する。これらの画像ブロックをコーディングして畳み込み操作することにより、ローカル標識(part token)を構築する。ただし、畳み込み層のカーネル幅、カーネルの高さ、およびステップサイズは、前記画像ブロックの幅、及び高さに等しい。
ステップS3では、前記ローカル標識(part token)により分類標識(class token)を構築する。
具体的には、前記ローカル標識(part token)にサイズが一致する訓練可能な分類標識を、分類標識(class token)として構築する。
ステップS4では、前記ローカル標識(part token)を前記分類標識(class token)とともにトランスフォーマーネットワーク(本実施例では、トランスフォーマー層がL=12であるViT-B_16ベースのネットワーク構造)に入力し、トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層を利用して、画像分類特徴情報及び各画像ブロック特徴情報を取得する。

VITベースのネットワーク構造における最初のL-1層のトランスフォーマー層により、画像分類の特徴情報及び各画像ブロックの特徴情報が抽出される。
ステップS5では、前記ローカル標識(part token)と前記分類標識(class token)との関連性を判定し、前記分類標識(class token)との関連性が最も高いいくつかの前記ローカル標識(part token)を選択して、関連性ローカル標識を構築する。
具体的には、前記ローカル標識(part token)と前記分類標識(class token)との関連性を判定する判定方法としては、トランスフォーマーネットワークの注意メカニズムによる判定を行う方法を用い、前記分類標識(class token)との関連性が最も高いtop-n(本実施例では、n=100)個の前記ローカル標識(part token)を選択し、関連性ローカル標識を構築する。
第L―1の層では、トランスフォーマーネットワーク構造自体が有するQuery-Key-Valueの自己注意メカニズムにより、分類標識(class token)とローカル標識(part token)との関連性を判定し、分類標識(class token)との関連性が最も高いtop-n(本実施例では、n=100)個のローカル標識を選択する。
1つのトランスフォーマー層は、1つの多頭自己注意メカニズム(マルチヘッドセルフアテンションメカニズム:multi-head self-attention:MSA)と多層感知メカニズム(multi-layer perceptron:MLP)とを含み、その式は、次のとおりである。
ただし、

具体的なQuery-Key-Value自己注意操作の式は次のとおりである。
ステップS6では、画像ブロックのスコアリングシステムを構築し、前記関連性ローカル標識をスコアリングし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成する。
具体的には、選択されたtop-n個の画像ブロックに対応するローカル標識(part token)をスコアリングし、スコアに基づいてtop-n個のローカル標識(part token)の特徴を重ね合わせて選択標識を生成する。
前記ステップS6は、以下のサブステップを含む。
ステップS61は、1つのトランスフォーマー層と、出力次元が1である1つの全接続層とを別体に構築する。
ステップS62は、前記関連性ローカル標識を、別体に構築された前記トランスフォーマー層と出力次元が1である前記全接続層とに入力し、出力結果に対してソフトマックス(softmax:指数正規化操作)操作を行う。
ステップS63は、ソフトマックス(指数正規化操作)後の値を前記関連性ローカル標識のスコアとし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成する。
具体的には、1つのトランスフォーマー層と、出力次元が1である1つの全接続層とを別体に構築し、関連性ローカル標識を、該トランスフォーマー層及び全接続層に入力し、出力されたtop-n次元のベクトルに対してソフトマックス(softmax:指数正規化操作)操作を行い、ソフトマックス(指数正規化操作)操作後の値をローカル標識のスコアとする。スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識(select_token)を生成する。
ステップS7では、前記分類標識(class token)と前記選択標識(select_token)の特徴を接合して最後のトランスフォーマー層に入力し、特徴処理を行うことにより、グローバル標識を出力する。
ステップS8では、前記ステップS7の特徴処理の結果により全接続層及びクロスエントロピー損失(Cross Entropy Loss)を構築し、分類訓練を行うとともに、ステップS6における前記関連性ローカル標識のスコア分布を利用して、相対エントロピー発散損失関数を構築して補助訓練を行う。
具体的には、同一画像を600*600のサイズに拡大や縮小した後、448*448のサイズの画像をランダムに抽出する。抽出された画像に対して2回の異なるランダムな前処理を行い、ネットワーク入力を取得し、前処理後の2枚のネットワーク入力は、輝度、コントラスト、彩度のみが異なる。ネットワーク訓練中、同一画像に対する異なるランダム前処理後に得られたネットワーク入力について、関連性ローカル標識のスコア分布に対して相対エントロピー(KL)発散損失関数を構築し、グローバル標識に対して全接続層及びクロスエントロピー損失を構築する。
訓練の終了後、ネットワークは、細粒度分類を達成するだけでなく、
分類標識(class token)との関連性が高いローカル標識をより正確に取得でき、つまり、判別性画像ブロックをより正確に判定できる。
ステップS9では、前記ステップS8で訓練されたモデルについて、最後のトランスフォーマー層以外のすべての層を固定し、最後のトランスフォーマー層のみに対して、前記グローバル標識と前記関連性ローカル標識とが接合され最後のトランスフォーマー層が訓練されるfinetune(微調整)操作を行い、クロスエントロピー損失関数によりfinetune(微調整)操作を行う。
同一の前記画像ブロックに対していくつかの異なるランダム前処理を行うことによって前処理画像ブロックが取得され、いくつかの前記前処理画像ブロックは、輝度、コントラスト、および彩度のみが異なる。
図2は本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法の解釈可能性分析の比較図である。図面において、第1列は、元の鳥の画像である。第2列は、トランスフォーマー自己注意メカニズムにおけるローカル標識(part token)と分類標識(class token)との関連度を各ローカル標識のスコアとし、スコアに基づいて構築されたヒートマップ(Heat map)である。第3列は、トランスフォーマー自己注意メカニズムにおけるローカル標識(part token)と分類標識(class token)との関連度を各ローカル標識のスコアとし、スコアが最大である前100個のローカル標識を1に標記し、前100以外のローカル標識(part token)を0に標記することにより、バイナリマップを生成し、このバイナリマップに基づいて構築されたヒートマップである。第4列は、本実施例に係る方法によって生成されたヒートマップである。図2の第2、3列から分かるように、トランスフォーマーの自己注意メカニズムは、目標(本実施例では、目標は、鳥である。)をより多く注目し、スコアが前100個であるローカル標識(part token)により目標全体がカバーされたが、背景画像ブロックに対応するローカル標識(part token)が多く含まれており、背景画像ブロックに対応するローカル標識(part token)のスコアは、目標画像ブロックに対応するローカル標識(part token)のスコアよりも高くなっており、細粒度分類に干渉してしまう。図における第2列と第4列とを比べて分かるように、本実施例に係る方法は、まず、トランスフォーマーの自己注意メカニズムにおける分類標識(class token)とローカル標識(part token)との関連度により、画像細粒度分類に役立つ判別性ローカル標識(part token)に対して予備選択を行い、画像ブロックのスコアリングメカニズムにより、選択されたローカル標識(part token)に対して精細化スコアリングを行う。第2列のヒートマップと比べて、本実施例に係る方法から得られたヒートマップは、背景画像ブロックに対応するローカル標識(part token)をより安定的に排除し、目標画像ブロックに対応するローカル標識(part token)により多く注目し、細粒度分類により一層役立っている。
図3は、CUB鳥類データセットに対する、VITベースの構造と本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法との試験結果であって、データの精度に対する本発明に係る方法における相対エントロピー(KL)発散損失関数及びfinetune(微調整)操作の向上状況を示す。図3における相対エントロピー(KL)発散のアブレーション実験(Ablation experiment)から分かるように、相対エントロピー(KL)発散損失関数を使用する場合は、相対エントロピー(KL)発散損失関数を使用しない場合と比べて、正確率が0.2%向上する。これは、同一画像ブロックでの異なる前処理操作の結果が、相対エントロピー(KL)発散損失関数によりガイドされて、ネットワークのフィードフォワードを介した後、ローカル標識(part token)と分類標識(class token)との関連分布が一致するため、ローカル標識(part token)と分類標識(class token)との関連分布が、画像の輝度、コントラスト及び彩度と関連せず、ネットワークの一般化性能(generalization ability)が強化されるからである。図3におけるfinetune(微調整)のアブレーション実験から分かるように、最後のトランスフォーマー層に対して複数のローカル標識(part token)を接合するfinetune(微調整)操作が行われる場合は、finetune(微調整)操作が行わない場合と比べて、精度が0.15%向上される。これは、訓練中で用いられる選択標識(select_token)が、分類に役立つものと分類に役立たないものとのすべてのローカル標識(part token)を累積的に融合し、特徴の利用性がある程度低下されるため、分類に役立つローカル標識(part token)のみを選択する方法ほど意味がないためである。
本発明は上記画像ブロックのスコアに基づく細粒度画像分類の方法の実施例に対応するように、画像ブロックのスコアに基づく細粒度画像分類の装置の実施例をさらに提供する。
図4に示すように、本発明の実施例に係る画像ブロックのスコアに基づく細粒度画像分類の装置は、実行可能なコードが格納される記憶部と、前記実行可能なコードの実行時に、上記実施例における画像ブロックのスコアに基づく細粒度画像分類の方法を実施するための1つまたは複数のプロセッサと、を備える。
本発明に係る画像ブロックのスコアに基づく細粒度画像分類の装置の実施例は、データ処理能力を有するコンピュータなどの設備や装置である任意の装置に適用してもよい。装置の実施例は、ソフトウェアによって実施されてもよいし、ハードウェアによって実施されてもよいし、ソフトウェアとハードウェアとの組み合わせによって実施されてもよい。ソフトウェアの実施例を挙げると、論理的な意味での装置としては、それが実装されるデータ処理能力付きの任意の設備でのプロセッサにより不揮発性記憶部において対応のコンピュータプログラム指令をメモリに読み込んで実行することによって形成される。ハードウェアの観点から、それは、図4に示すように、本発明に係る画像ブロックのスコアに基づく細粒度画像分類の装置が実装されるデータ処理能力付きの任意の設備のハードウェア構造図である。実施例に係る装置が実装されるデータ処理能力付きの任意の設備は、図4に示すプロセッサ、メモリ、ネットワークインターフェース、および不揮発性記憶部以外に、一般的に該任意のデータ処理能力を備える装置の実際の機能に基づいて、さらに他のハードウェアを含むことができ、これについては説明を省略する。
上記装置での各ユニットの機能および作用の実施過程の詳細については、上記方法に対応するステップの実施過程を参照すればよく、ここでは重複しない。
装置の実施例については、基本的に方法の実施例に対応するので、関連の箇所に対して方法の実施例の一部の説明を参照すればよい。上記に記載の装置の実施例は例示に過ぎず、その別体部材として説明されるユニットが、物理的に分離されてもされなくてもよく、ユニットとして示される部材は、物理的なユニットであってもよいし、そうでなくてもよい。すなわち、1つの箇所に位置されてもよいし、複数のネットワークのユニットに分布してもよい。実際の需要に応じてモジュールの一部や全体を選択して、本発明に係る技術案の目的を達成してもよい。当業者にとっては、創造的な労働を付かなくそれを理解して実施することができる。
本発明に係る実施例は、プロセッサによって実行される時に、上記実施例に係る画像ブロックのスコアに基づく細粒度画像分類の方法を実施するプログラムが格納されるコンピュータ読み取り可能な記憶媒体をさらに提供する。
前記コンピュータ読み取り可能な記憶媒体は、ハードディスクやメモリといった、前記任意の実施例に係るデータ処理能力を有する任意の設備の内部記憶ユニットであってもよい。前記コンピュータ読み取り可能な記憶媒体は、設備に配置されたプラグインハードディスク、スマート記憶カード(SMC:Smart Media Card)、SDカード、フラッシュカード(Flash Card)といった、データ処理能力を有する任意の設備の外部記憶設備であってもよい。さらに、前記コンピュータ読み取り可能な記憶媒体は、データ処理能力を有する任意の設備の内部記憶装置及び外部記憶装置の両方を備えてもよい。前記コンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラムと、前記データ処理能力を有する任意の設備に必要とする他のコンピュータプログラムやデータと、を格納するためのものであり、出力されたまたは出力されようとするデータを一時的に格納するためのものとしてもよい。
上記は、本発明の好ましい実施例にすぎず、本発明を限定することを意図するものではない。当業者にとっては、本発明を様々に修正や変更させてもよい。本発明の精神および原則の範囲内でなされた修正、同等の交換、及び改善などは、いずれも本発明の保護範囲に含まれるものとする。

Claims (9)

  1. 画像ブロックのスコアに基づく細粒度画像分類の方法であって、
    分類しようとする目標画像を取得し、分類データセットを構築するステップS1と、
    前記分類データセットをいくつかの重複しない画像ブロックに分割し、前記画像ブロックをコーディングしてローカル標識を構築するステップS2と、
    前記ローカル標識により分類標識を構築するステップS3と、
    前記ローカル標識を前記分類標識とともにトランスフォーマーネットワークに入力し、トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層により、前記分類標識を表現するための画像分類特徴情報と、各画像ブロックのローカル標識を表現するための画像ブロック特徴情報とを取得するステップS4と、
    前記画像分類特徴情報及び前記画像ブロック特徴情報に基づいて、前記ローカル標識と前記分類標識との関連性を決定し、前記分類標識との関連性が比較的に高いいくつかの前記ローカル標識を選択して、前記分類標識の関連性ローカル標識を構築するステップS5と、
    画像ブロックのスコアリングシステムを構築し、前記関連性ローカル標識をスコアリングし、前記スコアリングによるスコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップS6と、ステップS7と、ステップS8、ステップS9とを有し、
    前記ステップS6は、サブステップとして、
    前記トランスフォーマーネットワークにおいて、1つのトランスフォーマー層と、出力次元が1である1つの全接続層とを別体に構築するステップS61と、
    前記関連性ローカル標識を、別体に構築された前記トランスフォーマー層と出力次元が1である前記全接続層とに送入し、出力結果に対して指数正規化操作を行うステップS62と、
    前記指数正規化操作後の値を前記関連性ローカル標識のスコアとし、前記スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップS63とを含み、
    前記ステップS7は、前記分類標識と前記選択標識の特徴を接合して前記トランスフォーマーネットワークにおける最後のトランスフォーマー層に送入し、特徴処理を行い、
    前記ステップS8は、前記ステップS7の特徴処理の結果により全接続層及びクロスエントロピー損失を構築して分類訓練を行うとともに、ステップS6における前記関連性ローカル標識のスコア分布により相対エントロピー発散損失関数を構築して補助訓練を行い、
    前記ステップS9は、前記ステップS8で訓練されたモデルについて、前記トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層を固定し、前記トランスフォーマーネットワークにおける最後のトランスフォーマー層のみに対して、前記分類標識と前記関連性ローカル標識とが接合され最後のトランスフォーマー層が訓練される微調整操作を行う、
    ことを特徴とする画像ブロックのスコアに基づく細粒度画像分類の方法。
  2. 前記ステップS1において、前記分類データセットは、サンプルと属性分類ラベルとを含む、
    ことを特徴とする請求項1に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
  3. 前記ステップS2において、前記分類データセットは、ウィンドウをスライドさせる方法によって、いくつかの重複しない画像ブロックに分割され、前記画像ブロックに対して畳み込み操作を行うことによりローカル標識が構築され、畳み込み層のカーネル幅、カーネルの高さ、およびステップサイズは、前記画像ブロックの幅、及び高さに等しい、
    ことを特徴とする請求項1に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
  4. 前記ステップS3において、前記ローカル標識にサイズが一致する訓練可能な分類標識を、分類標識として構築する、
    ことを特徴とする請求項1に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
  5. 前記ステップS5において、前記ローカル標識と前記分類標識との関連性を決定する方法は、トランスフォーマーネットワークの注意メカニズムにより判定を行うものである、
    ことを特徴とする請求項1に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
  6. 前記ステップS8の訓練前には、前記ステップS7の特徴処理結果により、1つの画像ブロックをランダムに選択し、いくつかの異なるランダム前処理を行いて前処理画像ブロックを取得し、いくつかの前記前処理画像ブロックは、輝度、コントラスト及び彩度の1つ又は複数が異なり、前記前処理画像ブロックをネットワーク入力とし、全接続層及びクロスエントロピー損失を構築して分類訓練を行う、
    ことを特徴とする請求項1に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
  7. 前記微調整操作は、クロスエントロピー損失関数による微調整操作である、
    ことを特徴とする請求項1に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
  8. 画像ブロックのスコアに基づく細粒度画像分類の装置であって、
    実行可能なコードが格納される記憶部と、
    前記実行可能なコードの実行時に、請求項1~7のいずれか1項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するための1つまたは複数のプロセッサと、を備える、
    ことを特徴とする画像ブロックのスコアに基づく細粒度画像分類の装置。
  9. プロセッサによって実行される時に、請求項1~7のいずれか1項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するプログラムが格納される、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2022130509A 2022-03-14 2022-08-18 画像ブロックのスコアに基づく細粒度画像分類の方法及び装置 Active JP7373624B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210244194.4A CN114332544B (zh) 2022-03-14 2022-03-14 一种基于图像块评分的细粒度图像分类方法和装置
CN202210244194.4 2022-03-14

Publications (2)

Publication Number Publication Date
JP2023134327A JP2023134327A (ja) 2023-09-27
JP7373624B2 true JP7373624B2 (ja) 2023-11-02

Family

ID=81034133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022130509A Active JP7373624B2 (ja) 2022-03-14 2022-08-18 画像ブロックのスコアに基づく細粒度画像分類の方法及び装置

Country Status (3)

Country Link
JP (1) JP7373624B2 (ja)
CN (1) CN114332544B (ja)
WO (1) WO2023173599A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332544B (zh) * 2022-03-14 2022-06-07 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN115311504B (zh) * 2022-10-10 2023-01-31 之江实验室 一种基于注意力重定位的弱监督定位方法和装置
CN115830402B (zh) * 2023-02-21 2023-09-12 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备
CN117557605A (zh) * 2023-12-29 2024-02-13 中国科学院长春光学精密机械与物理研究所 红外与可见光遥感图像的配准方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036564A1 (en) 2020-08-03 2022-02-03 Korea Advanced Institute Of Science And Technology Method of classifying lesion of chest x-ray radiograph based on data normalization and local patch and apparatus thereof
CN114119979A (zh) 2021-12-06 2022-03-01 西安电子科技大学 基于分割掩码和自注意神经网络的细粒度图像分类方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284749A (zh) * 2017-07-19 2019-01-29 微软技术许可有限责任公司 精细化图像识别
CN110210027B (zh) * 2019-05-30 2023-01-24 杭州远传新业科技股份有限公司 基于集成学习的细粒度情感分析方法、装置、设备及介质
CN110598029B (zh) * 2019-09-06 2022-03-22 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN110807465B (zh) * 2019-11-05 2020-06-30 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法
GB2591178B (en) * 2019-12-20 2022-07-27 Procter & Gamble Machine learning based imaging method of determining authenticity of a consumer good
CN111339260A (zh) * 2020-03-02 2020-06-26 北京理工大学 一种基于bert和qa思想的细粒度情感分析方法
CN111523534B (zh) * 2020-03-31 2022-04-05 华东师范大学 一种图像描述的方法
CN112163465B (zh) * 2020-09-11 2022-04-22 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN114022703A (zh) * 2021-10-26 2022-02-08 之江实验室 一种基于深度学习的高效车辆细粒度识别方法
CN114119585B (zh) * 2021-12-01 2022-11-29 昆明理工大学 基于Transformer的关键特征增强胃癌图像识别方法
CN114067294B (zh) * 2022-01-18 2022-05-13 之江实验室 一种基于文本特征融合的细粒度车辆识别系统及方法
CN114332544B (zh) * 2022-03-14 2022-06-07 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036564A1 (en) 2020-08-03 2022-02-03 Korea Advanced Institute Of Science And Technology Method of classifying lesion of chest x-ray radiograph based on data normalization and local patch and apparatus thereof
CN114119979A (zh) 2021-12-06 2022-03-01 西安电子科技大学 基于分割掩码和自注意神经网络的细粒度图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xinda Liu et al.,Transformer with Peak Suppression and Knowledge Guindance for Fine-grained Image Recognition,[online],2021年12月10日, [retrieved on 2023.07.26], Retrieved from the Internet : <url: https://arxiv.org/pdf/2107.06538.pdf>

Also Published As

Publication number Publication date
WO2023173599A1 (zh) 2023-09-21
CN114332544B (zh) 2022-06-07
JP2023134327A (ja) 2023-09-27
CN114332544A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
JP7373624B2 (ja) 画像ブロックのスコアに基づく細粒度画像分類の方法及び装置
Kao et al. Visual aesthetic quality assessment with a regression model
Azizpour et al. From generic to specific deep representations for visual recognition
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
Ding et al. Single sample per person face recognition with KPCANet and a weighted voting scheme
Cao et al. Where to focus: Query adaptive matching for instance retrieval using convolutional feature maps
CN110246567A (zh) 一种医学图像预处理方法
Franchi et al. Latent discriminant deterministic uncertainty
Zhang et al. Vehicle license plate detection and recognition using deep neural networks and generative adversarial networks
Wu et al. A multi-level descriptor using ultra-deep feature for image retrieval
Moate et al. Vehicle detection in infrared imagery using neural networks with synthetic training data
Ren et al. Multi-local feature relation network for few-shot learning
Yuan et al. Improve scene classification by using feature and kernel combination
CN103336974B (zh) 一种基于局部约束稀疏表征的花卉类别辨识方法
CN110781817B (zh) 一种解决部件不对齐的行人再识别方法
Gupta et al. Recognition of varying size scene images using semantic analysis of deep activation maps
Wang et al. Visual attention based bag-of-words model for image classification
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
Kumar et al. Image classification in python using Keras
Ji et al. SEDLNet: An unsupervised precise lightweight extraction method for farmland areas
Varshneya et al. Learning interpretable concept groups in CNNs
Choudhury et al. Human detection using orientation shape histogram and coocurrence textures
Naik et al. Classification of leaves using convolutional neural network and logistic regression
Hou et al. Gradient-supervised person re-identification based on dense feature pyramid network
Li et al. An object detection approach with residual feature fusion and second‐order term attention mechanism

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231023

R150 Certificate of patent or registration of utility model

Ref document number: 7373624

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150