JP2020155101A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2020155101A
JP2020155101A JP2020008297A JP2020008297A JP2020155101A JP 2020155101 A JP2020155101 A JP 2020155101A JP 2020008297 A JP2020008297 A JP 2020008297A JP 2020008297 A JP2020008297 A JP 2020008297A JP 2020155101 A JP2020155101 A JP 2020155101A
Authority
JP
Japan
Prior art keywords
feature
classifier
mask
classification
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020008297A
Other languages
English (en)
Inventor
シェヌ・ウエイ
Wei Shen
リィウ・ルゥジエ
Rujie Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020155101A publication Critical patent/JP2020155101A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】誤認識の欠点を解決し得る情報処理装置、情報処理方法、及び分類装置を提供する。【解決手段】情報処理方法は、サンプル画像を機械学習アーキテクチャに入力してサンプル画像の第一特徴を取得し、第一分類器に第一特徴に基づいて第一分類損失を計算させ、第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、第二特徴を第一分類器に入力してエントロピー損失を計算させ、第一マスク及びエントロピー損失に基づいて第二マスクを計算しエントロピー損失を最大化し、第一特徴及び第二マスクに基づいて敵対的特徴を取得し、第一分類器と第二分類器を互に関連付けるように訓練する方式で、第二分類器に敵対的特徴に基づいてサンプル画像の第二分類損失を計算させ及び機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する。【選択図】図3

Description

本発明は、画像分類及び敵対的学習分野に関し、特に、2つの分類器を用いて敵対的相補学習を行うことができる情報処理装置及び情報処理方法、並びに、該情報処理装置により得られた訓練済みの機械学習アーキテクチャを用いて分類を行う装置及び方法に関する。
従来の画像分類方法では、往々にして1つのみチャネルがあり、即ち、入力画像を特徴抽出器及び分類器に直接結合し、分類結果を出力する。例えば、1つの訓練集合に白い猫及び黒い犬が含まれる場合、このようなデータ集合に基づいて分類器を訓練するときに、分類器は、黒色と白色の区別を学習し、猫及び犬の具体的な特徴を無視する。よって、ストデータが黒い猫であるときに、このように得られた分類器は、誤った判断を行い、黒い猫を犬と誤認することがある。
上述のような問題を鑑み、本発明の目的は、従来技術における1つ又は複数の欠点を解決し得る情報処理装置及び情報処理方法、並びに、該情報処理装置により得られた訓練済みの機械学習アーキテクチャを用いて分類を行う装置及び方法を提供することにある。
本発明の1つの側面によれば、情報処理装置が提供され、それは、
訓練集合中の各サンプル画像を機械学習アーキテクチャに入力してサンプル画像の第一特徴を取得し、第一分類器に、第一特徴に基づいてサンプル画像の第一分類損失を計算させる第一分類損失計算ユニット;
第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、第二特徴を第一分類器に入力して類確率分布のエントロピー損失を計算させるエントロピー損失計算ユニット;
第一マスク及びエントロピー損失に基づいて第二マスクを計算し、エントロピー損失を最大化するマスク計算ユニット;
第一特徴及び第二マスクに基づいて敵対的特徴を取得する敵対的特徴取得ユニットであって、敵対的特徴が第二特徴と相補的な特徴である敵対的特徴取得ユニット;
第一分類器と第二分類器を互に関連付けるように訓練する方式で、第二分類器に、敵対的特徴に基づいてサンプル画像の第二分類損失を計算させる第二分類損失計算ユニット;及び
第一分類損失と第二分類損失との和を最小化する方式で機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する訓練ユニットを含む。
本発明のもう1つの側面によれば、情報処理方法が提供され、それは、
訓練集合中の各サンプル画像を機械学習アーキテクチャに入力してサンプル画像の第一特徴を取得し、第一分類器に、第一特徴に基づいてサンプル画像の第一分類損失を計算させる第一分類損失計算ステップ;
第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、第二特徴を第一分類器に入力して類確率分布のエントロピー損失を計算させるエントロピー損失計算ステップ;
第一マスク及びエントロピー損失に基づいて第二マスクを計算し、エントロピー損失を最大化するマスク計算ステップ;
第一特徴及び第二マスクに基づいて敵対的特徴を取得する敵対的特徴取得ステップであって、敵対的特徴が第二特徴と相補的な特徴である敵対的特徴取得ステップ;
第一分類器と第二分類器を互に関連付けるように訓練する方式で、第二分類器に、敵対的特徴に基づいてサンプル画像の第二分類損失を計算させる第二分類損失計算ステップ;及び
第一分類損失と第二分類損失との和を最小化する方式で、機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する訓練ステップを含む。
本発明の他の側面によれば、上述の情報処理装置により得られた訓練済みの機械学習アーキテクチャを用いて分類を行う装置が提供され、それは、
分類待ち画像を訓練済みの機械学習アーキテクチャに入力し、分類待ち画像の特徴を抽出する特徴抽出ユニット;及び
分類待ち画像の特徴と、クラスが既知である画像の特徴との間の特徴相似度を計算し、分類待ち画像を、それと間の特徴相似度が最大である、クラスが既知である画像の属するクラスに分類する、分類ユニットを含む。
本発明の他の側面によれば、上述の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクトが提供される。
示出本発明の実施例における情報処理装置の機能構成例のブロック図である。 本発明の実施例における情報処理装置の例示的な実現方式を示す図である。 本発明の実施例における情報処理方法の例示的プロセスのフローチャートである。 本発明の実施例における分類のための装置の機能構成例のブロック図である。 本発明の実施例における分類のための装置の例示的な実現方式を示す図である。 本発明の実施例における分類のための方法の例示的プロセスのフローチャートである。 本発明の実施例で採用され得る汎用コンピュータの例示的な構成のブロック図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
まず、図1に基づいて本発明の実施例における情報処理装置100の機能ブロック図を説明する。図1は、本発明の実施例における情報処理装置100の機能構成例のブロック図である。図1に示すように、本発明の実施例における情報処理装置100は、第一分類損失計算ユニット102、エントロピー損失計算ユニット104、マスク計算ユニット106、敵対的特徴取得ユニット108、第二分類損失計算ユニット110及び訓練ユニット112を含む。
訓練集合中の各サンプル画像について、第一分類損失計算ユニット102は、サンプル画像を機械学習アーキテクチャに入力してサンプル画像の第一特徴を取得し、第一分類器に、第一特徴に基づいてサンプル画像の第一分類損失を計算させるように構成され得る。
一例として、機械学習アーキテクチャは、ニューラルネットワークアーキテクチャであっても良い。なお、当業者が理解すべては、機械学習アーキテクチャは、ニューラルネットワークアーキテクチャ以外のアーキテクチャであっても良いということであり、ここでは、その詳細な説明を省略する。また、第一特徴は、2次元の第一特徴ベクトルであっても良く、3次元の第一特徴マップであっても良い。
図2は、本発明の実施例における情報処理装置100の例示的な実現方式を示す図である。図2では、便宜のため、機械学習アーキテクチャが畳み込みニューラルネットワークCNNであることを例として説明を行う。
図2に示すように、サンプル画像をCNNに入力し、サンプル画像の第一特徴を取得する。図2では、第一特徴が3次元の第一特徴マップで示され、また、便宜のため、第一特徴マップのサイズがCxKxKであるとし、そのうち、Cは、チャネルの数であり、Kは、特徴マップの長さ及び幅である。図2では、第一分類器のパラメータW1で第一分類器を表す。一例として、第一特徴マップに対して処理を行うことにより取得された中間第一特徴ベクトル(図2では、中間第一特徴と示される)を第一分類器に入力し、サンプル画像の第一分類損失L1を計算しても良い。一例として、第一特徴マップに対して畳み込み演算を行うことで中間第一特徴ベクトルを得ても良く、又は、第一特徴マップに対して空間領域で和を求めて平均化することで中間第一特徴ベクトルを得ても良い。もちろん、当業者が第一特徴マップから中間第一特徴ベクトルを得る他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
一例として、softmax損失関数を採用してサンプル画像の第一分類損失を計算することができる。なお、当業者がサンプル画像の第一分類損失を計算する他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
エントロピー損失計算ユニット104は、第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、第二特徴を第一分類器W1に入力して類確率分布のエントロピー損失を計算させるように構成され得る。第二特徴が第一特徴から得られるので、第二特徴は第一特徴と関連付けられる。第一特徴が3次元の第一特徴マップである場合、所定の第一マスクを用いて3次元の第一特徴マップをベクトルの形式に変換し、第二特徴を得ることができる。
図2では、Mgで所定の第一マスクを示す。一例として、Mg中の各位置の値を1/(KxK)に設定しても良い。Mg中の各位置の値がすべて等しいから、第一マスクMgをグローバルプーリングマスクと称しても良く、第一マスクMgがグローバルプーリングマスクである場合、3次元の第一特徴マップに対して空間領域で和を求めて平均化することにより得られた平均ベクトルを第二特徴とすることができる。もちろん、当業者が第一マスクの値の設定のための他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
好ましくは、エントロピー損失計算ユニット104は、第一特徴と第一マスクとの乗算の後に得られた特徴を平均化して第二特徴を取得するように構成され得る。
一例として、エントロピー損失計算ユニット104は、第一特徴マップと第一マスクMgとの乗算の後に得られた特徴に対して空間領域で平均化して第二特徴を取得しても良い。
もちろん、当業者が第一特徴及び所定の第一マスクに基づいて第二特徴を計算する他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
図2の一番上の第一行に示すように、第二特徴を第一分類器W1に入力して類確率分布を計算し、そして、類確率分布に基づいてエントロピー損失lentを計算してもらうことができる。なお、エントロピー損失の計算方式がこの分野における周知のものであるから、ここでは、その詳細な説明を省略する。また、ここでは、エントロピー損失を用いて第一分類器の分類確定度を定義する。エントロピー損失が大きいほど、第一分類器の分類確定度が低く、また、エントロピー損失が小さいほど、第一分類器の分類確定度が高い。
ここでは、次のような敵対的特徴、即ち、第二特徴と相補的な特徴(第二特徴が第一特徴と関連付けられるから、該特徴も第一特徴と相補的である)を見つける必要があり、該特徴及び第二特徴に基づいて行われる分類の精度がより高い。敵対的特徴を得るために、第一特徴を用いて学習された第一分類器のエントロピー損失をできるだけ大きくする(即ち、第一分類器の分類確定度をできるだけ低くする)必要がある。
例えば、1つの訓練集合に白い猫及び黒い犬が含まれる場合、従来技術では、このようなデータ集合に基づいて第一分類器を訓練するときに、第一特徴が色の情報に関する特徴である(第二特徴が第一特徴と関連付けられるので、第二特徴も色の情報に関する特徴である)とするため、第一分類器は、如何に黒色と白色を区別するかのみを学習し、猫及び犬の具体的な形状の特徴を無視する。よって、テストデータが黒い猫のときに、このように得られた第一分類器は、誤った判断を行い、猫を犬と誤認することがある。
ここでは、さらに、猫及び犬の具体的な形状を反映する特徴(即ち、敵対的特徴)を見つける必要がある。色の情報に関する特徴に基づいて学習された第一分類器の分類確定度をできるだけ低くすることで、敵対的特徴を得ることができる。ここでは、テストデータが黒い猫のときに、色の情報に関する特徴と、猫及び犬の具体的な形状を反映する特徴とをジョイントして使用することで、猫であると判断することができるから、分類の精度を向上させることができる。
具体的には、ここでは、第一特徴マップに基づいて、下述の第二マスクを用いて敵対的特徴を取得する。
マスク計算ユニット106は、第一マスク及びエントロピー損失に基づいて第二マスクを計算し、エントロピー損失を最大化するように構成され得る。
図2中の第一行の左向きの矢印に示すように、計算されたエントロピー損失lentをバックプロパゲーションする。マスク計算ユニット106は、第一マスクMg及びエントロピー損失lentに基づいて第二マスクMrを計算し、第一特徴に基づいて学習された第一分類器のエントロピー損失を最大化するように構成され得る。エントロピー損失の最大化は、第一分類損失を最大化することと等価であり、即ち、第一分類器の分類確定度をできるだけ減少させる。
好ましくは、マスク計算ユニット106は、エントロピー損失の第一マスクに対する勾配に基づいて第二マスクを計算するように構成され得る。勾配が正のときに、エントロピー損失を増大させ、勾配が負のときに、エントロピー損失を減少させる。
具体的には、バックプロパゲーションの方式で、エントロピー損失関数の第一マスクMgに対する勾配を取得し、第一分類器のエントロピー損失を最大化する方式で第一マスクMgの値を更新し、これにより、第二マスクMrを取得する。第二マスクMrを敵対的アテンションマスクと称しても良く、それは、マスク上の各位置における特徴の、第一分類器の不確定度の増大への影響度を示す。
一例として、以下の公式(1)により第二マスクMrを計算することができる。
Figure 2020155101
公式(1)では、
(外1)
Figure 2020155101

は、エントロピー損失関数lentの第一マスクMgに対しての勾配であり、sは、更新ステップ長である。なお、当業者は、経験に基づいてsの値を設定しても良く、例えば、sを0.1に設定しても良い。
また、さらにLSTM(長・短期記憶)に基づいてマスクMrを計算することができる。具体的には、LSTMの入力が第一マスクMgであり、出力が第二マスクMr及びエントロピー損失lentである。即ち、LSTMを用いて、エントロピー損失の最大化を目的とすることで、第二マスクMrを取得することができる。
もちろん、当業者がさらに第一マスク及びエントロピー損失に基づいて第二マスクを計算する他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
敵対的特徴取得ユニット108は、第一特徴及び第二マスクに基づいて敵対的特徴を取得するように構成されうる。そのうち、敵対的特徴は、第二特徴と相補的な特徴である。
図2における真中の第二行に示すように、第一特徴マップ及び第二マスクMrに基づいて敵対的特徴を取得する。
好ましくは、敵対的特徴取得ユニット108は、第一特徴と第二マスクとの乗算の後に得られた特徴を平均化することで、敵対的特徴を得るように構成され得る。
具体的には、第一特徴マップと第二マスクMrとの乗算の後に得られた特徴に対して空間領域で和を求めて平均化することにより、敵対的特徴を取得する。
敵対的特徴が第二特徴と相補的な特徴であり、また、第一特徴が第二特徴と関連付けられるから、敵対的特徴も第一特徴と相補的であり、即ち、第一特徴と敵対的特徴とは、相補的な判別性特徴であり、第二特徴と敵対的特徴とも、相補的な判別性特徴である。上述から分かるように、本発明の実施例における情報処理装置100によれば、学習によりこれらの相補的な判別性特徴を抽出することができ、これらの相補的な判別性特徴は、画像の局所的な特徴を表すことができるだけでなく、画像の全体的な特徴をより良く表すこともできる。
第二分類損失計算ユニット110は、第一分類器と第二分類器を互に関連付けるように訓練する方式で、第二分類器に、敵対的特徴に基づいてサンプル画像の第二分類損失を計算させるように構成され得る。
好ましくは、第一分類器と第二分類器を互に関連付けるように訓練することは、次のようなことを含み、即ち、第二分類器のパラメータが第一分類器のパラメータを含み、第二分類器に、敵対的特徴のみに基づいてサンプル画像の第二分類損失を計算させる。図2では、第二分類器のパラメータが第一分類器のパラメータを含む場合を示し、即ち、第二分類器のパラメータは、W1+W2である。また、便宜のため、図2では、W1+W2により第二分類器を表す。
或いは、第一分類器と第二分類器を互に関連付けるように訓練することは、次のようなことを含み、第二分類器のパラメータが第一分類器のパラメータを含まず、第二分類器に、第二特徴及び敵対的特徴の両者に基づいてサンプル画像の第二分類損失を計算させる。第二分類器のパラメータが第一分類器のパラメータを含まない場合、W2のみで第二分類器のパラメータを表すことができる。
一例として、softmax損失関数を採用してサンプル画像の第二分類損失を計算しても良い。もちろん、当業者がサンプル画像の第二分類損失の計算のための他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
訓練ユニット112は、第一分類損失と第二分類損失との和を最小化する方式で機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得するように構成され得る。
一例として、訓練ユニット112は、第一分類損失と第二分類損失との和を最小化する方式で反復してバックプロパゲーションを行い、機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを更新する。所定の条件が満足されるときに反復処理を終了させることで、訓練済みの機械学習アーキテクチャ、第一分類器及び第二分類器を取得する。
従来の画像分類方法では、往々にして1つのみのチャネルがあり、即ち、入力画像を特徴抽出器及び分類器に直接結合し、分類結果を出力する。このような方法により、分類器が分類のために用いられる簡単な領域を注目し過ぎて他の領域の特徴を無視するようにさせることがある。例えば、1つの訓練集合に白い猫及び黒い犬が含まれ、このようなデータ集合に基づいて分類器を訓練するときに、分類器は、黒色と白色の区別のみを学習あし、猫及び犬の具体的な特徴を無視する可能性がある。テストデータが黒い猫のときに、分類器は、誤った判断を行い、猫を犬と誤認する恐れがある。よって、分類器は、色を用いてクラスを区別することのみを学習することができ、各クラスの他の潜在的な特徴を無視するようになる。これに対して、本発明の実施例における情報処理装置100では、2つの分類器を用いて敵対的相補学習を行う方式で従来の画像分類方法におけるこのような問題を解決することができる。本発明の実施例における情報処理装置100では、相補的な判別性特徴(例えば、上述のような色の情報に関する特徴、並びに猫及び犬の具体的な形状を反映する特徴)を自動学習し、これらの相補的な判別性特徴により、画像の局所的な特徴を表すことができるだけでなく、画像の全体的な特徴をより良く表すこともでき、これらの相補的な判別性特徴に基づいて、第一分類器と第二分類器を互に関連付けるように訓練することにより、訓練済みの機械学習アーキテクチャを取得し、分類の精度を向上させることができる。
上述の分類モデルの訓練装置の実施例に対応して、本発明は、さらに、以下の分類モデルの訓練方法の実施例を提供する。
図3は、本発明の実施例における情報処理方法300の例示的プロセスのフローチャートである。
図3に示すように、本発明の実施例における情報処理方法300は、第一分類損失計算ステップS302、エントロピー損失計算ステップS304、マスク計算ステップS306、敵対的特徴取得ステップS308、第二分類損失計算ステップS310及び訓練ステップS312を含む。
第一分類損失計算ステップS302では、訓練集合中の各サンプル画像について、サンプル画像を機械学習アーキテクチャに入力してサンプル画像の第一特徴を取得し、第一分類器に、第一特徴に基づいてサンプル画像の第一分類損失を計算させる。
一例として、機械学習アーキテクチャは、ニューラルネットワークアーキテクチャであっても良い。もちろん、当業者が理解すべては、機械学習アーキテクチャは、ニューラルネットワークアーキテクチャ以外のアーキテクチャであっても良いということであるが、ここでは、その詳細な説明を省略する。また、第一特徴は、2次元の第一特徴ベクトルであっても良く、3次元の第一特徴マップであっても良い。
一例として、softmax損失関数を採用してサンプル画像の第一分類損失を計算することができる。もちろん、当業者がサンプル画像の第一分類損失の計算のための他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
エントロピー損失計算ステップS304では、第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、第二特徴を第一分類器に入力して類確率分布のエントロピー損失を計算することができる。また、第二特徴が第一特徴から得られるので、第二特徴は、第一特徴と関連付けられる。
なお、第一マスクの値の設定に関する内容について、上述の実施例中の図2に関しての説明を参照することができ、ここでは、その詳しい説明を省略する。
好ましくは、エントロピー損失計算ステップS304では、第一特徴と第一マスクとの乗算の後に得られた特徴を平均化して第二特徴を得ることができる。
一例として、エントロピー損失計算ステップS304では、第一特徴マップと第一マスクMgとの乗算の後に得られた特徴に対して空間領域で平均化することで、第二特徴を得ても良い。
もちろん、当業者が第一特徴及び所定の第一マスクに基づいて第二特徴を計算する他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
第二特徴を第一分類器に入力して類確率分布を計算し、類確率分布に基づいてエントロピー損失を計算する。ここでは、エントロピー損失を用いて第一分類器の分類確定度を定義する。エントロピー損失が大きいほど、第一分類器の分類確定度が低く、また、エントロピー損失が小さいほど、第一分類器の分類確定度が高い。
マスク計算ステップS306では、第一マスク及びエントロピー損失に基づいて第二マスクを計算し、エントロピー損失を最大化することができる。
好ましくは、マスク計算ステップS306では、エントロピー損失の第一マスクに対する勾配に基づいて第二マスクを計算することができる。勾配が正のときに、エントロピー損失を増大させ、勾配が負のときに、エントロピー損失を減少させる。
具体的には、バックプロパゲーションの方式でエントロピー損失関数の第一マスクに対しての勾配を取得し、第一分類器のエントロピー損失を最大化する方式で第一マスクの値を更新し、第二マスクを取得する。
なお、エントロピー損失の第一マスクに対しての勾配に基づいて第二マスクを計算する例について、上述の実施例中の公式(1)に関しての説明を参照することができ、ここでは、その詳しい説明を省略する。
さらにLSTM(長・短期記憶)に基づいて第二マスクを計算することもできる。具体的には、LSTMの入力が第一マスクであり、出力が第二マスク及びエントロピー損失である。即ち、LSTMを用いて、エントロピー損失の最大化を目的とすることで、第二マスクを取得することができる。
もちろん、当業者が第一マスク及びエントロピー損失に基づいて第二マスクを計算する他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
敵対的特徴取得ステップS308では、第一特徴及び第二マスクに基づいて敵対的特徴を取得することができ、そのうち、敵対的特徴は、第二特徴と相補的な特徴である。
好ましくは、敵対的特徴取得ステップS308では、第一特徴と第二マスクとの乗算の後に得られた特徴を平均化することで、敵対的特徴を得ることができる。
具体的には、第一特徴マップと第二マスクとの乗算の後に得られた特徴に対して空間領域で和を求めて平均化することで、敵対的特徴を取得する。
敵対的特徴が第二特徴と相補的な特徴であり、また、第一特徴が第二特徴と関連付けられるから、敵対的特徴も第一特徴と相補的であり、即ち、第一特徴と敵対的特徴とは、相補的な判別性特徴であり、また、第二特徴と敵対的特徴とも、相補的な判別性特徴である。上述から分かるように、本発明の実施例における情報処理方法300によれば、これらの相補的な判別性特徴を自動抽出することができ、これらの相補的な判別性特徴により、画像の局所的な特徴を示すことができるだけでなく、画像の全体的な特徴をより良く示すこともできる。
第二分類損失計算ステップS310では、第一分類器と第二分類器を互に関連付けるように訓練する方式で、第二分類器に、敵対的特徴に基づいてサンプル画像の第二分類損失を計算させる。
好ましくは、第一分類器と第二分類器を互に関連付けるように訓練することは、次のようなことを含み、第二分類器のパラメータが第一分類器のパラメータを含み、第二分類器に、敵対的特徴のみに基づいて、サンプル画像の第二分類損失を計算させる。
或いは、第一分類器と第二分類器を互に関連付けるように訓練することは、次のようなことを含み、即ち、第二分類器のパラメータが第一分類器のパラメータを含まず、第二分類器に、第二特徴及び敵対的特徴の両者に基づいて、サンプル画像の第二分類損失を計算させる。
一例として、softmax損失関数を採用してサンプル画像の第二分類損失を計算しても良い。なお、当業者がさらにサンプル画像の第二分類損失の計算のための他の方式を想到することもできるが、ここでは、その詳細な説明を省略する。
訓練ステップS312では、第一分類損失と第二分類損失との和を最小化する方式で機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得することができる。
一例として、訓練ステップS312では、第一分類損失と第二分類損失との和を最小にする方式で反復してバックプロパゲーションを行うことで、機械学習アーキテクチャ、第一分類器及び第二分類器のパラメータを更新する。所定の条件が満足されるときに反復を終了させることで、訓練済みの機械学習アーキテクチャ、第一分類器及び第二分類器を取得することができる。
上述のことから、本発明の実施例における情報処理方法300では、2つの分類器を用いて敵対的相補学習を行う方式で、従来の画像分類方法における上述のような問題を解決することができる。本発明の実施例における情報処理方法300では、相補的な判別性特徴を自動学習し、これらの相補的な判別性特徴により、画像の局所的な特徴を表すことができるのみならず、画像の全体的な特徴を表すこともでき、これらの相補的な判別性特徴に基づいて、第一分類器と第二分類器を互に関連付けるように訓練することで、訓練済みの機械学習アーキテクチャを取得し、分類の精度を向上させることができる。
本発明は、さらに、上述の情報処理装置100により得られた訓練済みの機械学習アーキテクチャを用いて分類を行う装置400を提供する。図4は、本発明の実施例における分類のための装置400の機能構成例のブロック図である。図4に示すように、本発明の実施例における分類のための装置400は、特徴抽出ユニット402及び分類ユニット404を含む。
特徴抽出ユニット402は、分類待ち画像を前記の訓練済みの機械学習アーキテクチャに入力することで、分類待ち画像の特徴を抽出するように構成され得る。
好ましくは、特徴抽出ユニット402は、クラスが既知である画像を前記の訓練済みの機械学習アーキテクチャに入力することで、クラスが既知である画像の特徴を抽出するように構成され得る。或いは、この分野の既知の他の方式で、クラスが既知である画像の特徴を抽出することもできる。
抽出された特徴は、2次元の特徴ベクトルであっても良く、3次元の特徴マップであっても良い。
上述の情報処理装置100についての説明に記載のように、情報処理装置100は、相補的な判別性特徴を自動学習することができ、これらの相補的な判別性特徴は、画像の全体的な特徴をより良く表すことができる。よって、上述の情報処理装置100により得られた訓練済みの機械学習アーキテクチャを用いて、分類待ち画像の相補的な判別性特徴を抽出することができ、これらの相補的な判別性特徴により、分類待ち画像の局所的な特徴を表すことができるだけでなく、分類待ち画像の全体的な特徴を表すこともできる。さらに、これらの相補的な判別性特徴に基づいて分類待ち画像を分類することにより、分類の精度を向上させることができる。
分類ユニット404は、分類待ち画像の特徴と、クラスが既知である画像の特徴との間の特徴相似度を計算し、そして、分類待ち画像を、それとの間の特徴相似度が最大である、クラスが既知である画像の属するクラスに分類するように構成され得る。
図5は、本発明の実施例における分類のための装置400の例示的な実現方式を示す図である。図5では、便宜のため、訓練済みの機械学習アーキテクチャが畳み込みニューラルネットワークCNNであることを例として説明を行う。
図5に示すように、分類待ち画像を訓練済みのCNNに入力し、分類待ち画像の特徴を抽出する。図5では、抽出された特徴が3次元の特徴マップで示され、第一特徴マップサイズがCxKxKであるとし、そのうち、Cは、チャネルの数であり、Kは、特徴マップの長さ及び幅である。上述のように、該特徴マップは、分類待ち画像の相補的な判別性特徴を含み、これらの相補的な判別性特徴は、分類待ち画像の局所的な特徴を表すことができるだけでなく、分類待ち画像の全体的な特徴を表すこともできる。
好ましくは、分類ユニット404は、分類待ち画像の特徴を平均化し、そして、平均化後の特徴に基づいて特徴相似度を計算するように構成され得る。
一例として、図5に示すように、抽出された特徴マップと、各位置の値がすべて1/(KxK)である第一マスクMgとの乗算を行い、その後、乗算の後に得られた特徴を平均化し、即ち、抽出された特徴マップに対してグローバル平均プーリングを行い、平均化後の特徴ベクトルを取得する(図5では、平均化後の特徴ベクトルが平均化後の特徴と表される)。平均化後の特徴ベクトルに基づいて、特徴相似度を計算することができる。
好ましくは、分類ユニット404は、分類待ち画像の特徴と、クラスが既知である画像の特徴との間の余弦(コサイン)距離を特徴相似度として計算し、そして、分類待ち画像を、それとの間の余弦距離が最短である、クラスが既知である画像の属するクラスに分類するように構成され得る。
一例として、分類待ち画像の平均化後の特徴ベクトルと、クラス既知の画像の平均化後の特徴ベクトルとの間の余弦距離を計算し、最隣接の方式で分類待ち画像の属するクラスを予測する。
なお、余弦距離の他に、当業者がさらに他のものを特徴相似度としても良いが、ここでは、その詳細な説明を省略する。
上述のことから、本発明の実施例における分類のための装置400では、上述の情報処理装置100により得られた訓練済みの機械学習アーキテクチャを用いて、分類待ち画像の相補的な判別性特徴を抽出することができ、これらの相補的な判別性特徴は、分類待ち画像の局所的な特徴を表すことができるのみならず、分類待ち画像の全体的な特徴を表すこともできる。さらに、これらの相補的な判別性特徴に基づいて分類待ち画像を分類することで、分類の精度を向上させることができる。
上述の分類のための装置の実施例に対応して、本発明は、さらに、上述の情報処理装置により得られた訓練済みの機械学習アーキテクチャを用いて分類を行う方法の実施例を提供する。図6は、本発明の実施例における分類のための方法600の例示的なプロセスのフローチャートである。図6に示すように、本発明の実施例における分類のための方法600は、特徴抽出ステップS602及び分類ステップS604を含む。
特徴抽出ステップS602では、分類待ち画像を前記訓練済みの機械学習アーキテクチャに入力することで、分類待ち画像の特徴を抽出することができる。
好ましくは、特徴抽出ステップS602では、クラスが既知である画像を前記訓練済みの機械学習アーキテクチャに入力することで、クラスが既知である画像の特徴を抽出する。或いは、この分野における既知の他の方式で、クラスが既知である画像の特徴を抽出しても良い。
抽出された特徴は、2次元の特徴ベクトルであっても良く、3次元の特徴マップであっても良い。
上述の情報処理装置100についての説明に記載のように、情報処理装置100は、相補的な判別性特徴を自動学習することができ、これらの相補的な判別性特徴は、画像の全体的な特徴をより良く表すことができる。よって、上述の情報処理装置100により得られた訓練済みの機械学習アーキテクチャを用いて分類待ち画像の相補的な判別性特徴を抽出することができ、これらの相補的な判別性特徴は、分類待ち画像の局所的な特徴を表すことができるだけでなく、分類待ち画像の全体的な特徴を表すこともできる。さらに、これらの相補的な判別性特徴に基づいて分類待ち画像を分類することで、分類の精度を向上させることができる。
分類ステップS604では、分類待ち画像の特徴と、クラスが既知である画像の特徴との間の特徴相似度を計算し、そして、分類待ち画像を、それとの間の特徴相似度が最大である、クラスが既知である画像の属するクラスに分類することができる。
好ましくは、分類ステップS604では、分類待ち画像の特徴を平均化し、そして、平均化後の特徴に基づいて特徴相似度を計算することができる。
好ましくは、分類ステップS604では、分類待ち画像の特徴と、クラスが既知である画像の特徴との間の余弦距離を特徴相似度として計算し、そして、分類待ち画像を、それとの間の余弦距離が最短である、クラスが既知である画像の属するクラスに分類することができる。
一例として、分類待ち画像の平均化後の特徴ベクトルと、クラス既知の画像の平均化後の特徴ベクトルとの間の余弦距離を計算し、最隣接の方式で分類待ち画像の属するクラスを予測する。
なお、余弦距離の他に、当業者がさらに他のものを特徴相似度としても良いが、ここでは、その詳細な説明を省略する。
上述のように、本発明の実施例における分類のための方法600では、上述の情報処理装置100により得られた訓練済みの機械学習アーキテクチャを用いて分類待ち画像の相補的な判別性特徴を抽出することができ、これらの相補的な判別性特徴は、分類待ち画像の局所的な特徴を表すことができるだけでなく、分類待ち画像の全体的な特徴を表すこともできる。さらに、これらの相補的な判別性特徴に基づいて分類待ち画像を分類することで、分類の精度を向上させることができる。
また、上述の一連の処理は、ソフトウェア及び/又はファームウェアにより実現されても良い。ソフトウェア及び/又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を有するコンピュータ、例えば、図7に示す汎用マシン700(例えば、コンピュータ)に、該ソフトウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされているときに、各種の機能などを実行することができる。
図7は、本発明の実施例で採用され得る汎用コンピュータの一例の構成ブロック図である。
図7では、中央処理装置(CPU)701は、ROM 702に記憶されているプログラム又は記憶部708からRAM 703にロッドされているプログラムに基づいて各種の処理を行う。RAM 703では、ニーズに応じて、CPU 701が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU 701、ROM 702及びRAM 703は、バス704を経由して互いに接続される。入力/出力インターフェース705もバス704に接続される。
また、入力/出力インターフェース705には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部706、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部707、ハードディスクなどを含む記憶部708、ネットワークインターフェースカード、例えば、LANカード、モデムなどを含む通信部709である。通信部709は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。
ドライブ710は、ニーズに応じて、入力/出力インターフェース705に接続されても良い。取り外し可能な媒体711、例えば、半導体メモリなどは、必要に応じて、ドライブ710にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部708にインストールすることができる。
本発明は、さらに、プログラムを記憶したコンピュータ記憶媒体に関し、該プログラムは、実行されるときに上述の実施例における方法を実現することができり。
また、本発明は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種の記憶媒体も、本発明に含まれる。
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
また、以上の実施例などに関し、さらに以下のように付記を開示する。
(付記1)
情報処理装置であって、
訓練集合中の各サンプル画像を機械学習アーキテクチャに入力して前記サンプル画像の第一特徴を取得し、第一分類器に、前記第一特徴に基づいて前記サンプル画像の第一分類損失を計算させる第一分類損失計算ユニット;
前記第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、前記第二特徴を前記第一分類器に入力して類確率分布のエントロピー損失を計算させるエントロピー損失計算ユニット;
前記第一マスク及び前記エントロピー損失に基づいて第二マスクを計算し、前記エントロピー損失を最大にするマスク計算ユニット;
前記第一特徴及び前記第二マスクに基づいて敵対的特徴を取得する敵対的特徴取得ユニットであって、前記敵対的特徴が前記第二特徴と相補的な特徴である敵対的特徴取得ユニット;
前記第一分類器と第二分類器を互に関連付けるように訓練する方式で、前記第二分類器に、前記敵対的特徴に基づいて前記サンプル画像の第二分類損失を計算させる第二分類損失計算ユニット;及び
前記第一分類損失と第二分類損失との和を最小にする方式で、前記機械学習アーキテクチャ、前記第一分類器及び前記第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する訓練ユニットを含む、装置。
(付記2)
付記1に記載の情報処理装置であって、
前記マスク計算ユニットは、前記エントロピー損失の前記第一マスクに対する勾配に基づいて前記第二マスクを計算する、装置。
(付記3)
付記1に記載の情報処理装置であって、
前記マスク計算ユニットは、長・短期記憶(LSTM)を用いて、前記エントロピー損失及び前記第一マスクに基づいて前記第二マスクを計算する、装置。
(付記4)
付記1に記載の情報処理装置であって、
前記第一分類器と前記第二分類器を互に関連付けるように訓練することは、
前記第二分類器のパラメータが前記第一分類器のパラメータを含み、前記第二分類器に、前記敵対的特徴のみに基づいて、前記サンプル画像の第二分類損失を計算させることを含む、装置。
(付記5)
付記1に記載の情報処理装置であって、
前記第一分類器と前記第二分類器を互に関連付けるように訓練することは、
前記第二分類器のパラメータが前記第一分類器のパラメータを含まず、前記第二分類器に、前記第二特徴及び前記敵対的特徴の両者に基づいて前記サンプル画像の第二分類損失を計算させる、装置。
(付記6)
付記1に記載の情報処理装置であって、
前記敵対的特徴取得ユニットは、前記第一特徴と前記第二マスクとの乗算の後に得られた特徴を平均化し、前記敵対的特徴を取得する、装置。
(付記7)
付記1に記載の情報処理装置であって、
前記エントロピー損失計算ユニットは、前記第一特徴と前記第一マスクとの乗算の後に得られた特徴を平均化し、前記第二特徴を取得する、装置。
(付記8)
付記1に記載の情報処理装置であって、
前記第一特徴は3次元特徴である、装置。
(付記9)
付記1に記載の情報処理装置であって、
前記機械学習アーキテクチャはニューラルネットワークアーキテクチャである、装置。
(付記10)
情報処理方法であって、
訓練集合中の各サンプル画像を機械学習アーキテクチャに入力して前記サンプル画像の第一特徴を取得し、第一分類器に、前記第一特徴に基づいて前記サンプル画像の第一分類損失を計算させる第一分類損失計算ステップ;
前記第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、前記第二特徴を前記第一分類器に入力して類確率分布のエントロピー損失を計算させるエントロピー損失計算ステップ;
前記第一マスク及び前記エントロピー損失に基づいて第二マスクを計算し、前記エントロピー損失を最大にするマスク計算ステップ、;
前記第一特徴及び前記第二マスクに基づいて敵対的特徴を取得し、前記敵対的特徴が前記第二特徴と相補的な特徴である敵対的特徴取得ステップ;
前記第一分類器と前記第二分類器を互に関連付けるように訓練する方式で、前記第二分類器に、前記敵対的特徴に基づいて前記サンプル画像の第二分類損失を計算させる第二分類損失計算ステップ;及び
前記第一分類損失と第二分類損失との和を最小にする方式で前記機械学習アーキテクチャ、前記第一分類器及び前記第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する訓練ステップを含む、方法。
(付記11)
付記10に記載の情報処理方法であって、
前記マスク計算ステップでは、前記エントロピー損失の前記第一マスクに対する勾配に基づいて前記第二マスクを計算する、方法。
(付記12)
付記10に記載の情報処理方法であって、
前記マスク計算ステップでは、長・短期記憶(LSTM)を用いて、前記エントロピー損失及び前記第一マスクに基づいて前記第二マスクを計算する、方法。
(付記13)
付記10に記載の情報処理方法であって、
前記第一分類器と前記第二分類器を互に関連付けるように訓練することは、
前記第二分類器のパラメータが前記第一分類器のパラメータを含み、前記第二分類器に、前記敵対的特徴のみに基づいて前記サンプル画像の第二分類損失を計算されることを含む、方法。
(付記14)
付記10に記載の情報処理方法であって、
前記第一分類器と前記第二分類器を互に関連付けるように訓練することは、
前記第二分類器のパラメータが前記第一分類器のパラメータを含まず、前記第二分類器に、前記第二特徴及び前記敵対的特徴の両者に基づいて前記サンプル画像の第二分類損失を計算させることを含む、方法。
(付記15)
付記10に記載の情報処理方法であって、
前記敵対的特徴取得ステップでは、前記第一特徴と前記第二マスクとの乗算の後に得られた特徴を平均化し、前記敵対的特徴を取得する、方法。
(付記16)
付記10に記載の情報処理方法であって、
前記エントロピー損失計算ステップでは、前記第一特徴と前記第一マスクとの乗算の後に得られた特徴を平均化し、前記第二特徴を取得する、方法。
(付記17)
付記10に記載の情報処理方法であって、
前記第一特徴は3次元特徴である、方法。
(付記18)
付記10に記載の情報処理方法であって、
前記機械学習アーキテクチャはニューラルネットワークアーキテクチャである、方法。
(付記19)
付記1-9のうちの任意の1項に記載の情報処理装置により得られた前記訓練済みの機械学習アーキテクチャを用いて分類を行う装置であって、
分類待ち画像を前記訓練済みの機械学習アーキテクチャに入力して前記分類待ち画像の特徴を抽出する特徴抽出ユニット;及び
前記分類待ち画像の特徴と、クラスが既知である画像の特徴との間の特徴相似度を計算し、前記分類待ち画像を、それとの間の特徴相似度が最大である、クラスが既知である画像の属するクラスに分類する分類ユニットを含む、装置。
(付記20)
付記19に記載の装置であって、
前記分類ユニットは、前記分類待ち画像の特徴を平均化し、平均化後の特徴に基づいて前記特徴相似度を計算する、装置。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims (10)

  1. 情報を処理する装置であって、
    訓練集合中の各サンプル画像を機械学習アーキテクチャに入力して前記サンプル画像の第一特徴を取得し、第一分類器に、前記第一特徴に基づいて前記サンプル画像の第一分類損失を計算させる第一分類損失計算ユニット;
    前記第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、前記第二特徴を前記第一分類器に入力して類確率分布のエントロピー損失をさせるエントロピー損失計算ユニット;
    前記第一マスク及び前記エントロピー損失に基づいて第二マスクを計算し、前記エントロピー損失を最大にするマスク計算ユニット;
    前記第一特徴及び前記第二マスクに基づいて敵対的特徴を取得する敵対的特徴取得ユニットであって、前記敵対的特徴が前記第二特徴と相補的な特徴である敵対的特徴取得ユニット;
    前記第一分類器と前記第二分類器を互に関連付けるように訓練する方式で、前記第二分類器に、前記敵対的特徴に基づいて前記サンプル画像の第二分類損失を計算させる第二分類損失計算ユニット;及び
    前記第一分類損失と第二分類損失との和を最小にする方式で、前記機械学習アーキテクチャ、前記第一分類器及び前記第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する訓練ユニットを含む、装置。
  2. 請求項1に記載の装置であって、
    前記マスク計算ユニットは、前記エントロピー損失の前記第一マスクに対する勾配に基づいて前記第二マスクを計算する、装置。
  3. 請求項1に記載の装置であって、
    前記マスク計算ユニットは、長・短期記憶(LSTM)を用いて、前記エントロピー損失及び前記第一マスクに基づいて前記第二マスクを計算する、装置。
  4. 請求項1に記載の装置であって、
    前記第一分類器と前記第二分類器を互に関連付けるように訓練することは、
    前記第二分類器のパラメータが前記第一分類器のパラメータを含み、前記第二分類器に、前記敵対的特徴のみに基づいて、前記サンプル画像の第二分類損失を計算させ;又は
    前記第二分類器のパラメータが前記第一分類器のパラメータを含まず、前記第二分類器に、前記第二特徴及び前記敵対的特徴の両者に基づいて前記サンプル画像の第二分類損失を計算させることを含む、装置。
  5. 請求項1に記載の装置であって、
    前記敵対的特徴取得ユニットは、前記第一特徴と前記第二マスクとの乗算の後に得られた特徴を平均化し、前記敵対的特徴を取得する、装置。
  6. 請求項1に記載の装置であって、
    前記エントロピー損失計算ユニットは、前記第一特徴と前記第二マスクとの乗算の後に得られた特徴を平均化し、前記第二特徴を取得する、装置。
  7. 請求項1に記載の装置であって、
    前記第一特徴は3次元特徴である、装置。
  8. 請求項1に記載の装置であって、
    前記機械学習アーキテクチャはニューラルネットワークアーキテクチャである、装置。
  9. 情報を処理する方法であって、
    訓練集合中の各サンプル画像を機械学習アーキテクチャに入力して前記サンプル画像の第一特徴を取得し、第一分類器に、前記第一特徴に基づいて前記サンプル画像の第一分類損失を計算させる第一分類損失計算ステップ;
    前記第一特徴及び所定の第一マスクに基づいて第二特徴を計算し、前記第二特徴を前記第一分類器に入力して類確率分布のエントロピー損失を計算させるエントロピー損失計算ステップ;
    前記第一マスク及び前記エントロピー損失に基づいて第二マスクを計算し、前記エントロピー損失を最大にするマスク計算ステップ、;
    前記第一特徴及び前記第二マスクに基づいて敵対的特徴を取得し、前記敵対的特徴が前記第二特徴と相補的な特徴である敵対的特徴取得ステップ;
    前記第一分類器と前記第二分類器を互に関連付けるように訓練する方式で、前記第二分類器に、前記敵対的特徴に基づいて前記サンプル画像の第二分類損失を計算させる第二分類損失計算ステップ;及び
    前記第一分類損失と第二分類損失との和を最小にする方式で前記機械学習アーキテクチャ、前記第一分類器及び前記第二分類器のパラメータを調整し、訓練済みの機械学習アーキテクチャを取得する訓練ステップを含む、方法。
  10. 請求項1〜8のうちの任意の1項に記載の、情報を処理する装置により得られた前記訓練済みの機械学習アーキテクチャを用いて分類を行う分類装置であって、
    分類待ち画像を前記訓練済みの機械学習アーキテクチャに入力して前記分類待ち画像の特徴を抽出する特徴抽出ユニット;及び
    前記分類待ち画像の特徴と、クラスが既知である画像の特徴との間の特徴相似度を計算し、前記分類待ち画像を、該分類待ち画像との間の特徴相似度が最大である、クラスが既知である画像の属するクラスに分類する分類ユニットを含む、分類装置。
JP2020008297A 2019-03-21 2020-01-22 情報処理装置及び情報処理方法 Pending JP2020155101A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910217426.5 2019-03-21
CN201910217426.5A CN111723833A (zh) 2019-03-21 2019-03-21 信息处理装置和信息处理方法

Publications (1)

Publication Number Publication Date
JP2020155101A true JP2020155101A (ja) 2020-09-24

Family

ID=72514527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020008297A Pending JP2020155101A (ja) 2019-03-21 2020-01-22 情報処理装置及び情報処理方法

Country Status (3)

Country Link
US (1) US11200464B2 (ja)
JP (1) JP2020155101A (ja)
CN (1) CN111723833A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275972B2 (en) * 2019-11-08 2022-03-15 International Business Machines Corporation Image classification masking
US11475304B2 (en) * 2020-05-12 2022-10-18 International Business Machines Corporation Variational gradient flow
US11978247B2 (en) * 2020-11-12 2024-05-07 Objectvideo Labs, Llc Adversarial masks for scene-customized false detection removal

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185895B1 (en) * 2017-03-23 2019-01-22 Gopro, Inc. Systems and methods for classifying activities captured within images
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
CN107818314B (zh) * 2017-11-22 2019-03-19 北京达佳互联信息技术有限公司 脸部图像处理方法、装置及服务器
CN108335313A (zh) * 2018-02-26 2018-07-27 阿博茨德(北京)科技有限公司 图像分割方法及装置
US11030486B2 (en) * 2018-04-20 2021-06-08 XNOR.ai, Inc. Image classification through label progression
CN108875818B (zh) * 2018-06-06 2020-08-18 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
US20200285888A1 (en) * 2019-03-08 2020-09-10 Myntra Designs Private Limited Domain adaptation system and method for identification of similar images
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques

Also Published As

Publication number Publication date
CN111723833A (zh) 2020-09-29
US20200302246A1 (en) 2020-09-24
US11200464B2 (en) 2021-12-14

Similar Documents

Publication Publication Date Title
CN109840531B (zh) 训练多标签分类模型的方法和装置
WO2019238063A1 (zh) 文本检测分析方法、装置及设备
JP2020155101A (ja) 情報処理装置及び情報処理方法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
WO2019158015A1 (zh) 样本获取方法、目标检测模型生成方法、目标检测方法
CN110750665A (zh) 基于熵最小化的开集域适应方法及系统
US11341770B2 (en) Facial image identification system, identifier generation device, identification device, image identification system, and identification system
CN110909618B (zh) 一种宠物身份的识别方法及装置
US20180157892A1 (en) Eye detection method and apparatus
JP2019521443A (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
CN112085055B (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
WO2020164278A1 (zh) 一种图像处理方法、装置、电子设备和可读存储介质
JP6943291B2 (ja) 学習装置、学習方法、及び、プログラム
CN108537168B (zh) 基于迁移学习技术的面部表情识别方法
JP7095599B2 (ja) 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム
WO2021159815A1 (zh) 人脸识别模型的训练方法、装置和计算机设备
CN114359622A (zh) 基于卷积神经网络-转换器混合架构的图像分类方法
CN116844217B (zh) 用于生成人脸数据的图像处理系统及方法
CN114357221A (zh) 一种基于图像分类的自监督主动学习方法
CN112182269A (zh) 图像分类模型的训练、图像分类方法、装置、设备及介质
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
US11328179B2 (en) Information processing apparatus and information processing method
CN113537389B (zh) 基于模型嵌入的鲁棒图像分类方法和装置
WO2023273570A1 (zh) 一种目标检测模型训练方法、目标检测方法及其相关设备
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法