JP7373624B2

JP7373624B2 - 画像ブロックのスコアに基づく細粒度画像分類の方法及び装置

Info

Publication number: JP7373624B2
Application number: JP2022130509A
Authority: JP
Inventors: 慧蘇; 修生盧; 聡王
Original assignee: 之江実験室
Priority date: 2022-03-14
Filing date: 2022-08-18
Publication date: 2023-11-02
Anticipated expiration: 2042-08-18
Also published as: WO2023173599A1; CN114332544B; JP2023134327A; CN114332544A

Description

〈関連出願の相互参照〉
本発明は２０２２年３月１４日に中国特許庁へ提出された出願番号２０２２１０２４４１９４．４、発明名称「画像ブロックのスコアに基づく細粒度画像分類の方法及び装置」の中国特許出願に基づき優先権を主張しており、その全ての内容は、ここに援用される。

本発明は、画像分類の技術分野に関し、特に、画像ブロックのスコアに基づく細粒度画像分類の方法及び装置に関する。

細粒度分類（Ｆｉｎｅ－ｇｒａｉｎｅｄＣｌａｓｓｉｆｉｃａｔｉｏｎ）は、同一クラスの画像に基づき、鳥の種類、服のスタイル、犬の種類といったより細かいサブクラスに分類するものである。現実の生活では、様々なサブクラスを識別するためのアプリケーションの需要が非常に大きい。例えば、生態環境では、様々な種類の生物を識別することによってより効率的に生態を保護し、小売業界では、商品の顧客に取得／試用される回数を自動的に識別することによって統計データによって製品の反復をサポートし、監視業界では、通過車両の種類を分類することによってより良い都市管理を実現する。細粒度分類タスクは、その幅広い適用価値により、コンピュータービジョンの分野で注目されている研究方向である。これにより、細粒度画像分析の方向には、様々な典型的なデータセットが生成された。例えば、犬類のデータセットであるＳｔａｎｆｏｒｄＤｏｇｓ、花類のデータセットであるＯｘｆｏｒｄＦｌｏｗｅｒｓ、航空機のデータセットであるＡｉｒｃｒａｆｔｓ、及び自動車のデータセットであるＳｔａｎｆｏｒｄＣａｒｓ等である。

一般的に、同一クラス内の異なるサブクラス間には、鳥の口のような小さい部分に微小な違いがあり、同じサブクラス内には、姿勢、背景、照明、遮蔽などに影響されて大きな違いがあることがよくある。細粒度画像のクラス内の大きな違いと、クラス間の類似性は、分類タスクの難しさ及び課題を増大させている。現在、既存の細粒度分類方法は、主に、領域の特定に基づく方法と、特徴コーディングに基づく方法の２つの側面から検討されている。領域の特定に基づく方法は、主に、強い教師または弱い教師の方法を使用して、サブクラスを判別するための識別領域を特定し、これらの識別領域を元の画像から抽出して、ネットワークに送り返し、識別領域の特徴と画像のグローバルな特徴とを融合して分類に用いる。特徴コーディングに基づく方法は、一般的に、バイリニアプーリング法（Ｂｉｌｉｎｅａｒｐｏｏｌｉｎｇｍｅｔｈｏｄ）により画像の高次情報を取得することにより、画像のより詳細な特徴を取得する。これらの方法は、主に、従来の畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて分類し、細粒度分類用の識別領域とコーディング特徴とを取得するためには、複雑な分岐構造を追加して構築する必要がある。また、畳み込みニューラルネットワークでは、全体の特徴スケールが、ネットワークの深度が深くなるのに伴って減少するため、取得される識別領域を元の画像または浅層の特徴から抽出して、ネットワーク構造に送信して、さらに情報を抽出する必要がある。その結果、モデルの複雑性が高くなり、手間がかかる。

近年、トランスフォーマー（transformer）ネットワーク構造のマルチヘッドセルフアテンション（Multi-headed Self-attention）メカニズムの長期依存能力（Ｌｏｎｇ－ＴｅｒｍＤｅｐｅｎｄｅｎｃｙ）は、従来の畳み込みニューラルネットワークがグローバルな特徴を捉えるのに不十分であるという欠点を補うことができる。トランスフォーマーモデルの強力なモデリング能力をコンピュータビジョンの分野に適用するため、多くの研究が開始され、コンピュータビジョンの分野で革新が達成されている。現在、トランスフォーマーは、分類、検出、分割などの複数のビジョンタスクで強力な性能を発揮しており、超解像、画像検索、画像テキスト検索などのタスクも、トランスフォーマーにおいて人気のある研究方向になっている。トランスフォーマーネットワークを如何に効果てきに細粒度分類に適用できるかについて予備研究が行われている。しかしながら、既存の方法では、トランスフォーマーのセルフアテンションメカニズムにより、細粒度分類用の識別領域を選ぶことは考慮されたが、ネットワークによって入力された画像ブロックの配列が長い場合、セルフアテンションメカニズムの長期依存能力により特徴を捉える能力が制限され、識別領域に対する判定能力が低下し、細粒度分類の精度が低下する、というトランスフォーマーネットワークの固有の欠陥は、考慮されていない。
よって、画像ブロックのスコアリングに基づく細粒度画像分類の方法及び装置を設計することにより、上記の技術的課題を解決する。

本発明は、主に、クラス内の差異が大きく、クラス間に類似性が高いという細粒度画像分類の問題を解決するために、画像ブロックのスコアリングに基づく細粒度画像分類の方法及び装置を提供することを目的とする。

本発明に係る技術案は以下の通りである。
画像ブロックのスコアに基づく細粒度画像分類の方法であって、
分類しようとする目標画像を取得し、分類データセットを構築するステップＳ１と、
前記分類データセットをいくつかの重複しない画像ブロックに分割し、前記画像ブロックをコーディングしてローカル標識を構築するステップＳ２と、
前記ローカル標識により分類標識を構築するステップＳ３と、

前記ローカル標識を前記分類標識とともにトランスフォーマーネットワークに送入し、トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層により、画像分類特徴情報及び各画像ブロック特徴情報を取得するステップＳ４と、

前記ローカル標識と前記分類標識との関連性を判定し、前記分類標識との関連性が最も高いいくつかの前記ローカル標識を選択して、関連性ローカル標識を構築するステップＳ５と、

画像ブロックのスコアリングシステムを構築し、前記関連性ローカル標識をスコアリングし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップＳ６と、
分類標識と選択標識の特徴を接合して最後のトランスフォーマー層に送入し、特徴処理を行うステップＳ７と、

前記ステップＳ７の特徴処理の結果により全接続層及びクロスエントロピー損失（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）を構築して分類訓練を行うとともに、ステップＳ６における前記関連性ローカル標識のスコア分布により相対エントロピー発散損失関数（Ｒｅｌａｔｉｖｅ Eｎｔｒｏｐｙ Dｉｖｅｒｇｅｎｃｅ Lｏｓｓ Fｕｎｃｔｉｏｎ）を構築して補助訓練を行うステップＳ８と、

前記ステップＳ８で訓練されたモデルについて、最後のトランスフォーマー層以外のすべての層を固定し、最後のトランスフォーマー層のみに対して、前記グローバル標識と前記関連性ローカル標識とが接合され最後のトランスフォーマー層が訓練される微調整操作を行うステップＳ９と、
を備える画像ブロックのスコアに基づく細粒度画像分類の方法。
さらに、前記ステップＳ１において、前記分類データセットは、サンプルと属性分類ラベルとを含む。

さらに、前記ステップＳ２において、前記分類データセットは、ウィンドウをスライドさせる方法によっていくつかの重複しない画像ブロックに分割され、前記画像ブロックに対して畳み込み操作を行うことによりローカル標識が構築され、畳み込み層のカーネル幅、カーネルの高さ、およびステップサイズは、前記画像ブロックの幅、及び高さに等しい。
さらに、前記ステップＳ３において、前記ローカル標識にサイズが一致する訓練可能な分類標識を、分類標識として構築する。

さらに、前記ステップＳ５において、前記ローカル標識と前記分類標識との関連性を判定する判定方法としては、トランスフォーマーネットワークの注意メカニズムにより判定を行う方法を用いるものである。
さらに、前記ステップＳ６は、サブステップとして以下のステップＳ６１～Ｓ６３を備える。
１つのトランスフォーマー層と、出力次元が１である１つの全接続層とを別体に構築するステップＳ６１と、

前記関連性ローカル標識を、別体に構築された前記トランスフォーマー層と出力次元が１である前記全接続層とに送入し、出力結果に対してソフトマックス（ｓｏｆｔｍａｘ：指数正規化操作）操作を行うステップＳ６２と、

ソフトマックス（指数正規化操作）操作後の値を前記関連性ローカル標識のスコアとし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップＳ６３である。

さらに、前記ステップＳ８の訓練前には、前記ステップＳ７の特徴処理結果により、１つの画像ブロックをランダムに選択し、いくつかの異なるランダム前処理を行いて前処理画像ブロックを取得し、いくつかの前記前処理画像ブロックは、輝度、コントラスト、彩度のみが異なり、前記前処理画像ブロックは、ネットワーク入力として入力されることにより、全接続層及びクロスエントロピー損失を構築して分類訓練を行う。
さらに、前記微調整操作は、クロスエントロピー損失関数による微調整操作である。

本発明は、画像ブロックのスコアに基づく細粒度画像分類の装置であって、実行可能なコードが格納される記憶部と、前記実行可能なコードの実行時に、上記いずれか１項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するための１つまたは複数のプロセッサと、を備える画像ブロックのスコアに基づく細粒度画像分類の装置をさらに提供する。

本発明は、プロセッサによって実行される時に、上記いずれか１項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するプログラムが格納されるコンピュータ読み取り可能な記憶媒体をさらに提供する。

本発明の有益な効果は、以下の通りである。本発明は、トランスフォーマー構造を分類のベース構造とし、画像を全過程で複数の画像ブロックに分割し、画像の全体サイズがネットワーク深度の深化に伴って減少しないトランスフォーマーネットワークの特徴を利用する。トランスフォーマー構造における自己注意メカニズムにより、グローバルな特徴をローカルな特徴に関連付け、サブクラスに促進作用を有する画像ブロックを選別する。本発明は、トランスフォーマー構造の自己注意メカニズムは、長期依存能力により特徴を捉える能力の精度が不足しているという問題に対して、スコアリングシステムを構築し、選択された画像ブロックに対して二次精細化スコアリングを行い、各画像ブロックのスコアに応じてグローバル特徴と各画像ブロック特徴とを融合して分類を行う。本発明に係る方法は、実施が簡単であり、トランスフォーマーネットワークにおいてプラグアンドプレイすることができ、効果が明らかに向上される。

図１は本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法の構造概略図である。図２は本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法の解釈可能性分析の比較図である。図３は、ＣＵＢ鳥データセットに対する、ＶＩＴベースの構造と本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法との試験結果である。図４は、本発明に係る画像ブロックのスコアに基づく細粒度画像分類の装置の構造図である。

以下、少なくとも１つの例示的な実施例の説明は、実際に例示的なもののみであり、本発明及びその適用や使用を限定するものではない。本発明における実施例に基づいて、当業者が創造的な労働をすることなく得られた他の全ての実施例は、本発明の保護範囲に属する。

図１は、本発明に係る画像ブロックのスコアリングに基づく細粒度画像分類の方法の構造概略図である。本発明に係る方法は、訓練中に、Ｌ－１層を通過した後に得られた特徴に対して、トランスフォーマー構造を利用して自己注意（セルフアテンション）メカニズムにより、分類に最大の影響を与えるｔｏｐ－ｎ個のローカル標識を選別し、選別されたｔｏｐ－ｎ個のローカル標識に対して画像ブロックのスコアリングメカニズムにより識別性精細スコアリングを行い、そのスコア値を利用してｔｏｐ－ｎ個のローカル標識を融合して選択標識を生成する。次に、分類標識と選択標識とを接合して最後のトランスフォーマー層へ一緒に送入する。
実施例

本方法は、Ｐｙｔｏｒｃｈフレームを用いて実験を行い、ＣＵＢ鳥類データに対して、初期学習率が０．０３で、運動量が０．９であるＳＧＤオプティマイザー（ＳＧＤ最適化アルゴリズム）を使用する。訓練課程において、画像サイズを６００＊６００に調整してから、４４８＊４４８のサイズまでランダムに抽出するとともに、画像の輝度を元の輝度を基準にランダムに５０％変動させ、コントラストを元のコントラストを基準にランダムに５０％変動させ、彩度を元の彩度を基準にランダムに４０％変動させ、画像をランダムに左右に反転させる。画像データの画素値の範囲を０～１に調整した後、Ｒ、Ｇ、Ｂの３つのチャネルに対してそれぞれ、平均値０．４８５、０．４５６、０．４０６、分散０．２２９、０．２２４、０．２２５で正規化操作を行う。訓練及びｆｉｎｅｔｕｎｅ（微調整）のプロセスは、４つのｇｐｕ分散型訓練を統一し、各ｇｐｕのバッチサイズ（ｂａｔｃｈｓｉｚｅ）は８であり、１０，０００ステップ数を訓練する。訓練課程において、最初の５００ステップ数は、学習率（Lｅａｒｎｉｎｇ Rａｔｅ）を予熱するために使用され、余弦減衰を学習率減衰法として採用する。本実施のすべての実験負荷ＶｉＴ－Ｂ＿１６は、ＩｍａｇｅＮｅｔ２１Ｋデータセット上で事前に訓練されたモデルに基づいて、訓練される。

テスト過程において、まず、画像サイズを６００＊６００に調整し、中央から４４８＊４４８サイズの画像を抽出する。画像データの画素値の範囲を０～１に調整した後、Ｒ、Ｇ、Ｂの３チャネルに対して、それぞれ平均値０．４８５、０．４５６、０．４０６、分散０．２２９、０．２２４、０．２２５で正規化操作を行う。
画像ブロックスコアリングに基づく細粒度画像分類の方法は、ステップＳ１～S９を備える。

ステップＳ１では、分類対象の目標画像を取得し、分類データセットを構築する。
具体的には、合計１．２万枚の鳥類分類データセットが構築され、鳥類分類データセットは、合計２００個のクラスがあり、各クラスには、６０個のサンプル（ＣＵＢ公開データセット）がある。サンプルがN＝１，２０００でありクラスがK＝２００の場合、鳥データ

ステップＳ２では、前記分類データセットを複数の重複しない画像ブロックに分割し、前記画像ブロックをコーディングしてローカル標識（ｐａｒｔｔｏｋｅｎ）を構築する。

具体的には、鳥類分類データセットを調整して、ウィンドウをスライドさせる方法で、幅方向＊高さ方向に２８個＊２８個に分割し、合計７８４個で、画素数１６ピクセルの、重複しない画像ブロックに分割する。これらの画像ブロックをコーディングして畳み込み操作することにより、ローカル標識（ｐａｒｔｔｏｋｅｎ）を構築する。ただし、畳み込み層のカーネル幅、カーネルの高さ、およびステップサイズは、前記画像ブロックの幅、及び高さに等しい。
ステップＳ３では、前記ローカル標識（ｐａｒｔｔｏｋｅｎ）により分類標識（ｃｌａｓｓｔｏｋｅｎ）を構築する。
具体的には、前記ローカル標識（ｐａｒｔｔｏｋｅｎ）にサイズが一致する訓練可能な分類標識を、分類標識（ｃｌａｓｓｔｏｋｅｎ）として構築する。

ステップＳ４では、前記ローカル標識（ｐａｒｔｔｏｋｅｎ）を前記分類標識（ｃｌａｓｓｔｏｋｅｎ）とともにトランスフォーマーネットワーク（本実施例では、トランスフォーマー層がL＝１２であるViT-B＿１６ベースのネットワーク構造）に入力し、トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層を利用して、画像分類特徴情報及び各画像ブロック特徴情報を取得する。

ＶＩＴベースのネットワーク構造における最初のＬ－１層のトランスフォーマー層により、画像分類の特徴情報及び各画像ブロックの特徴情報が抽出される。

ステップＳ５では、前記ローカル標識（ｐａｒｔｔｏｋｅｎ）と前記分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連性を判定し、前記分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連性が最も高いいくつかの前記ローカル標識（ｐａｒｔｔｏｋｅｎ）を選択して、関連性ローカル標識を構築する。

具体的には、前記ローカル標識（ｐａｒｔｔｏｋｅｎ）と前記分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連性を判定する判定方法としては、トランスフォーマーネットワークの注意メカニズムによる判定を行う方法を用い、前記分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連性が最も高いｔｏｐ－ｎ（本実施例では、ｎ＝１００）個の前記ローカル標識（ｐａｒｔｔｏｋｅｎ）を選択し、関連性ローカル標識を構築する。

第L―１の層では、トランスフォーマーネットワーク構造自体が有するＱｕｅｒｙ－Ｋｅｙ－Ｖａｌｕｅの自己注意メカニズムにより、分類標識（ｃｌａｓｓｔｏｋｅｎ）とローカル標識（ｐａｒｔｔｏｋｅｎ）との関連性を判定し、分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連性が最も高いｔｏｐ－ｎ（本実施例では、ｎ＝１００）個のローカル標識を選択する。

１つのトランスフォーマー層は、１つの多頭自己注意メカニズム（マルチヘッドセルフアテンションメカニズム：ｍｕｌｔｉ－ｈｅａｄｓｅｌｆ－ａｔｔｅｎｔｉｏｎ：ＭＳＡ）と多層感知メカニズム（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ：ＭＬＰ）とを含み、その式は、次のとおりである。

ただし、

具体的なＱｕｅｒｙ－Ｋｅｙ－Ｖａｌｕｅ自己注意操作の式は次のとおりである。

ステップＳ６では、画像ブロックのスコアリングシステムを構築し、前記関連性ローカル標識をスコアリングし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成する。

具体的には、選択されたｔｏｐ－ｎ個の画像ブロックに対応するローカル標識（ｐａｒｔｔｏｋｅｎ）をスコアリングし、スコアに基づいてｔｏｐ－ｎ個のローカル標識（ｐａｒｔｔｏｋｅｎ）の特徴を重ね合わせて選択標識を生成する。
前記ステップＳ６は、以下のサブステップを含む。
ステップＳ６１は、１つのトランスフォーマー層と、出力次元が１である１つの全接続層とを別体に構築する。

ステップＳ６２は、前記関連性ローカル標識を、別体に構築された前記トランスフォーマー層と出力次元が１である前記全接続層とに入力し、出力結果に対してソフトマックス（ｓｏｆｔｍａｘ：指数正規化操作）操作を行う。

ステップＳ６３は、ソフトマックス（指数正規化操作）後の値を前記関連性ローカル標識のスコアとし、スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成する。

具体的には、１つのトランスフォーマー層と、出力次元が１である１つの全接続層とを別体に構築し、関連性ローカル標識を、該トランスフォーマー層及び全接続層に入力し、出力されたｔｏｐ－ｎ次元のベクトルに対してソフトマックス（ｓｏｆｔｍａｘ：指数正規化操作）操作を行い、ソフトマックス（指数正規化操作）操作後の値をローカル標識のスコアとする。スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識（ｓｅｌｅｃｔ＿ｔｏｋｅｎ）を生成する。

ステップＳ７では、前記分類標識（ｃｌａｓｓｔｏｋｅｎ）と前記選択標識（ｓｅｌｅｃｔ＿ｔｏｋｅｎ）の特徴を接合して最後のトランスフォーマー層に入力し、特徴処理を行うことにより、グローバル標識を出力する。

ステップＳ８では、前記ステップＳ７の特徴処理の結果により全接続層及びクロスエントロピー損失（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）を構築し、分類訓練を行うとともに、ステップＳ６における前記関連性ローカル標識のスコア分布を利用して、相対エントロピー発散損失関数を構築して補助訓練を行う。

具体的には、同一画像を６００＊６００のサイズに拡大や縮小した後、４４８＊４４８のサイズの画像をランダムに抽出する。抽出された画像に対して２回の異なるランダムな前処理を行い、ネットワーク入力を取得し、前処理後の２枚のネットワーク入力は、輝度、コントラスト、彩度のみが異なる。ネットワーク訓練中、同一画像に対する異なるランダム前処理後に得られたネットワーク入力について、関連性ローカル標識のスコア分布に対して相対エントロピー（ＫＬ）発散損失関数を構築し、グローバル標識に対して全接続層及びクロスエントロピー損失を構築する。

訓練の終了後、ネットワークは、細粒度分類を達成するだけでなく、
分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連性が高いローカル標識をより正確に取得でき、つまり、判別性画像ブロックをより正確に判定できる。

ステップＳ９では、前記ステップＳ８で訓練されたモデルについて、最後のトランスフォーマー層以外のすべての層を固定し、最後のトランスフォーマー層のみに対して、前記グローバル標識と前記関連性ローカル標識とが接合され最後のトランスフォーマー層が訓練されるｆｉｎｅｔｕｎｅ（微調整）操作を行い、クロスエントロピー損失関数によりｆｉｎｅｔｕｎｅ（微調整）操作を行う。

同一の前記画像ブロックに対していくつかの異なるランダム前処理を行うことによって前処理画像ブロックが取得され、いくつかの前記前処理画像ブロックは、輝度、コントラスト、および彩度のみが異なる。

図２は本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法の解釈可能性分析の比較図である。図面において、第１列は、元の鳥の画像である。第２列は、トランスフォーマー自己注意メカニズムにおけるローカル標識（ｐａｒｔｔｏｋｅｎ）と分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連度を各ローカル標識のスコアとし、スコアに基づいて構築されたヒートマップ（Ｈｅａｔｍａｐ）である。第３列は、トランスフォーマー自己注意メカニズムにおけるローカル標識（ｐａｒｔｔｏｋｅｎ）と分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連度を各ローカル標識のスコアとし、スコアが最大である前１００個のローカル標識を１に標記し、前１００以外のローカル標識（ｐａｒｔｔｏｋｅｎ）を０に標記することにより、バイナリマップを生成し、このバイナリマップに基づいて構築されたヒートマップである。第４列は、本実施例に係る方法によって生成されたヒートマップである。図２の第２、３列から分かるように、トランスフォーマーの自己注意メカニズムは、目標（本実施例では、目標は、鳥である。）をより多く注目し、スコアが前１００個であるローカル標識（ｐａｒｔｔｏｋｅｎ）により目標全体がカバーされたが、背景画像ブロックに対応するローカル標識（ｐａｒｔｔｏｋｅｎ）が多く含まれており、背景画像ブロックに対応するローカル標識（ｐａｒｔｔｏｋｅｎ）のスコアは、目標画像ブロックに対応するローカル標識（ｐａｒｔｔｏｋｅｎ）のスコアよりも高くなっており、細粒度分類に干渉してしまう。図における第２列と第４列とを比べて分かるように、本実施例に係る方法は、まず、トランスフォーマーの自己注意メカニズムにおける分類標識（ｃｌａｓｓｔｏｋｅｎ）とローカル標識（ｐａｒｔｔｏｋｅｎ）との関連度により、画像細粒度分類に役立つ判別性ローカル標識（ｐａｒｔｔｏｋｅｎ）に対して予備選択を行い、画像ブロックのスコアリングメカニズムにより、選択されたローカル標識（ｐａｒｔｔｏｋｅｎ）に対して精細化スコアリングを行う。第２列のヒートマップと比べて、本実施例に係る方法から得られたヒートマップは、背景画像ブロックに対応するローカル標識（ｐａｒｔｔｏｋｅｎ）をより安定的に排除し、目標画像ブロックに対応するローカル標識（ｐａｒｔｔｏｋｅｎ）により多く注目し、細粒度分類により一層役立っている。

図３は、ＣＵＢ鳥類データセットに対する、ＶＩＴベースの構造と本発明に係る画像ブロックのスコアに基づく細粒度画像分類の方法との試験結果であって、データの精度に対する本発明に係る方法における相対エントロピー（ＫＬ）発散損失関数及びｆｉｎｅｔｕｎｅ（微調整）操作の向上状況を示す。図３における相対エントロピー（ＫＬ）発散のアブレーション実験（Ａｂｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔ）から分かるように、相対エントロピー（ＫＬ）発散損失関数を使用する場合は、相対エントロピー（ＫＬ）発散損失関数を使用しない場合と比べて、正確率が０．２％向上する。これは、同一画像ブロックでの異なる前処理操作の結果が、相対エントロピー（ＫＬ）発散損失関数によりガイドされて、ネットワークのフィードフォワードを介した後、ローカル標識（ｐａｒｔｔｏｋｅｎ）と分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連分布が一致するため、ローカル標識（ｐａｒｔｔｏｋｅｎ）と分類標識（ｃｌａｓｓｔｏｋｅｎ）との関連分布が、画像の輝度、コントラスト及び彩度と関連せず、ネットワークの一般化性能（ｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙ）が強化されるからである。図３におけるｆｉｎｅｔｕｎｅ（微調整）のアブレーション実験から分かるように、最後のトランスフォーマー層に対して複数のローカル標識（ｐａｒｔｔｏｋｅｎ）を接合するｆｉｎｅｔｕｎｅ（微調整）操作が行われる場合は、ｆｉｎｅｔｕｎｅ（微調整）操作が行わない場合と比べて、精度が０．１５％向上される。これは、訓練中で用いられる選択標識（ｓｅｌｅｃｔ＿ｔｏｋｅｎ）が、分類に役立つものと分類に役立たないものとのすべてのローカル標識（ｐａｒｔｔｏｋｅｎ）を累積的に融合し、特徴の利用性がある程度低下されるため、分類に役立つローカル標識（ｐａｒｔｔｏｋｅｎ）のみを選択する方法ほど意味がないためである。

本発明は上記画像ブロックのスコアに基づく細粒度画像分類の方法の実施例に対応するように、画像ブロックのスコアに基づく細粒度画像分類の装置の実施例をさらに提供する。

図４に示すように、本発明の実施例に係る画像ブロックのスコアに基づく細粒度画像分類の装置は、実行可能なコードが格納される記憶部と、前記実行可能なコードの実行時に、上記実施例における画像ブロックのスコアに基づく細粒度画像分類の方法を実施するための１つまたは複数のプロセッサと、を備える。

本発明に係る画像ブロックのスコアに基づく細粒度画像分類の装置の実施例は、データ処理能力を有するコンピュータなどの設備や装置である任意の装置に適用してもよい。装置の実施例は、ソフトウェアによって実施されてもよいし、ハードウェアによって実施されてもよいし、ソフトウェアとハードウェアとの組み合わせによって実施されてもよい。ソフトウェアの実施例を挙げると、論理的な意味での装置としては、それが実装されるデータ処理能力付きの任意の設備でのプロセッサにより不揮発性記憶部において対応のコンピュータプログラム指令をメモリに読み込んで実行することによって形成される。ハードウェアの観点から、それは、図４に示すように、本発明に係る画像ブロックのスコアに基づく細粒度画像分類の装置が実装されるデータ処理能力付きの任意の設備のハードウェア構造図である。実施例に係る装置が実装されるデータ処理能力付きの任意の設備は、図４に示すプロセッサ、メモリ、ネットワークインターフェース、および不揮発性記憶部以外に、一般的に該任意のデータ処理能力を備える装置の実際の機能に基づいて、さらに他のハードウェアを含むことができ、これについては説明を省略する。
上記装置での各ユニットの機能および作用の実施過程の詳細については、上記方法に対応するステップの実施過程を参照すればよく、ここでは重複しない。

装置の実施例については、基本的に方法の実施例に対応するので、関連の箇所に対して方法の実施例の一部の説明を参照すればよい。上記に記載の装置の実施例は例示に過ぎず、その別体部材として説明されるユニットが、物理的に分離されてもされなくてもよく、ユニットとして示される部材は、物理的なユニットであってもよいし、そうでなくてもよい。すなわち、１つの箇所に位置されてもよいし、複数のネットワークのユニットに分布してもよい。実際の需要に応じてモジュールの一部や全体を選択して、本発明に係る技術案の目的を達成してもよい。当業者にとっては、創造的な労働を付かなくそれを理解して実施することができる。

本発明に係る実施例は、プロセッサによって実行される時に、上記実施例に係る画像ブロックのスコアに基づく細粒度画像分類の方法を実施するプログラムが格納されるコンピュータ読み取り可能な記憶媒体をさらに提供する。

前記コンピュータ読み取り可能な記憶媒体は、ハードディスクやメモリといった、前記任意の実施例に係るデータ処理能力を有する任意の設備の内部記憶ユニットであってもよい。前記コンピュータ読み取り可能な記憶媒体は、設備に配置されたプラグインハードディスク、スマート記憶カード（ＳＭＣ：ＳｍａｒｔＭｅｄｉａＣａｒｄ）、ＳＤカード、フラッシュカード（ＦｌａｓｈＣａｒｄ）といった、データ処理能力を有する任意の設備の外部記憶設備であってもよい。さらに、前記コンピュータ読み取り可能な記憶媒体は、データ処理能力を有する任意の設備の内部記憶装置及び外部記憶装置の両方を備えてもよい。前記コンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラムと、前記データ処理能力を有する任意の設備に必要とする他のコンピュータプログラムやデータと、を格納するためのものであり、出力されたまたは出力されようとするデータを一時的に格納するためのものとしてもよい。

上記は、本発明の好ましい実施例にすぎず、本発明を限定することを意図するものではない。当業者にとっては、本発明を様々に修正や変更させてもよい。本発明の精神および原則の範囲内でなされた修正、同等の交換、及び改善などは、いずれも本発明の保護範囲に含まれるものとする。

Claims

画像ブロックのスコアに基づく細粒度画像分類の方法であって、
分類しようとする目標画像を取得し、分類データセットを構築するステップＳ１と、
前記分類データセットをいくつかの重複しない画像ブロックに分割し、前記画像ブロックをコーディングしてローカル標識を構築するステップＳ２と、
前記ローカル標識により分類標識を構築するステップＳ３と、
前記ローカル標識を前記分類標識とともにトランスフォーマーネットワークに入力し、トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層により、前記分類標識を表現するための画像分類特徴情報と、各画像ブロックのローカル標識を表現するための画像ブロック特徴情報とを取得するステップＳ４と、
前記画像分類特徴情報及び前記画像ブロック特徴情報に基づいて、前記ローカル標識と前記分類標識との関連性を決定し、前記分類標識との関連性が比較的に高いいくつかの前記ローカル標識を選択して、前記分類標識の関連性ローカル標識を構築するステップＳ５と、
画像ブロックのスコアリングシステムを構築し、前記関連性ローカル標識をスコアリングし、前記スコアリングによるスコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップＳ６と、ステップＳ７と、ステップＳ８、ステップＳ９とを有し、
前記ステップＳ６は、サブステップとして、
前記トランスフォーマーネットワークにおいて、１つのトランスフォーマー層と、出力次元が１である１つの全接続層とを別体に構築するステップＳ６１と、
前記関連性ローカル標識を、別体に構築された前記トランスフォーマー層と出力次元が１である前記全接続層とに送入し、出力結果に対して指数正規化操作を行うステップＳ６２と、
前記指数正規化操作後の値を前記関連性ローカル標識のスコアとし、前記スコアに基づいて前記関連性ローカル標識の特徴を重ね合わせて選択標識を生成するステップＳ６３とを含み、
前記ステップＳ７は、前記分類標識と前記選択標識の特徴を接合して前記トランスフォーマーネットワークにおける最後のトランスフォーマー層に送入し、特徴処理を行い、
前記ステップＳ８は、前記ステップＳ７の特徴処理の結果により全接続層及びクロスエントロピー損失を構築して分類訓練を行うとともに、ステップＳ６における前記関連性ローカル標識のスコア分布により相対エントロピー発散損失関数を構築して補助訓練を行い、
前記ステップＳ９は、前記ステップＳ８で訓練されたモデルについて、前記トランスフォーマーネットワークにおける最後のトランスフォーマー層以外のネットワーク層を固定し、前記トランスフォーマーネットワークにおける最後のトランスフォーマー層のみに対して、前記分類標識と前記関連性ローカル標識とが接合され最後のトランスフォーマー層が訓練される微調整操作を行う、
ことを特徴とする画像ブロックのスコアに基づく細粒度画像分類の方法。
前記ステップＳ１において、前記分類データセットは、サンプルと属性分類ラベルとを含む、
ことを特徴とする請求項１に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
前記ステップＳ２において、前記分類データセットは、ウィンドウをスライドさせる方法によって、いくつかの重複しない画像ブロックに分割され、前記画像ブロックに対して畳み込み操作を行うことによりローカル標識が構築され、畳み込み層のカーネル幅、カーネルの高さ、およびステップサイズは、前記画像ブロックの幅、及び高さに等しい、
ことを特徴とする請求項１に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
前記ステップＳ３において、前記ローカル標識にサイズが一致する訓練可能な分類標識を、分類標識として構築する、
ことを特徴とする請求項１に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
前記ステップＳ５において、前記ローカル標識と前記分類標識との関連性を決定する方法は、トランスフォーマーネットワークの注意メカニズムにより判定を行うものである、
ことを特徴とする請求項１に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
前記ステップＳ８の訓練前には、前記ステップＳ７の特徴処理結果により、１つの画像ブロックをランダムに選択し、いくつかの異なるランダム前処理を行いて前処理画像ブロックを取得し、いくつかの前記前処理画像ブロックは、輝度、コントラスト及び彩度の１つ又は複数が異なり、前記前処理画像ブロックをネットワーク入力とし、全接続層及びクロスエントロピー損失を構築して分類訓練を行う、
ことを特徴とする請求項１に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
前記微調整操作は、クロスエントロピー損失関数による微調整操作である、
ことを特徴とする請求項１に記載の画像ブロックのスコアに基づく細粒度画像分類の方法。
画像ブロックのスコアに基づく細粒度画像分類の装置であって、
実行可能なコードが格納される記憶部と、
前記実行可能なコードの実行時に、請求項１～７のいずれか１項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するための１つまたは複数のプロセッサと、を備える、
ことを特徴とする画像ブロックのスコアに基づく細粒度画像分類の装置。
プロセッサによって実行される時に、請求項１～７のいずれか１項に記載の画像ブロックのスコアに基づく細粒度画像分類の方法を実施するプログラムが格納される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。