JP2023001086A - ニューラルネットワークに基づく分類方法、及び分類装置 - Google Patents
ニューラルネットワークに基づく分類方法、及び分類装置 Download PDFInfo
- Publication number
- JP2023001086A JP2023001086A JP2022097731A JP2022097731A JP2023001086A JP 2023001086 A JP2023001086 A JP 2023001086A JP 2022097731 A JP2022097731 A JP 2022097731A JP 2022097731 A JP2022097731 A JP 2022097731A JP 2023001086 A JP2023001086 A JP 2023001086A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- feature
- reference sample
- category
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
【課題】分類方法を提供し、少量のラベリングサンプルのみがサポートされている場合でも、高精度で検出サンプルを正確に分類する。【解決手段】分類方法は、検出サンプルの検出サンプル特徴を抽出するステップと、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するステップであって、各グループの参照サンプルは、同じカテゴリを有するステップと、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップと、各グループの参照サンプルについて、前記類似度の平均値を算出するステップと、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含む。【選択図】図3
Description
本開示は、コンピュータの分野に関し、特に、ニューラルネットワークに基づく分類方法、及び分類装置に関する。
近年、ディープラーニングの急速な発展に伴い、コンピュータビジョンの分野の多くのタスクは、いずれもニューラルネットワークを通じて効果的に処理することができる。ニューラルネットワークに基づく分類方法は、国内外の研究者が常に注目しているホットな研究問題である。一般的に、ニューラルネットワークに基づく分類方法は、大量のトレーニングデータを用いてモデルを学習させる必要があり、比較的正確な分類モデルを取得することができる。
しかしながら、多くの用途シナリオでは、医療データ、携帯電話のユーザが手動でラベリングしたデータなど、大量のトレーニングデータを取得することは非常に高価であり、困難であり、さらに不可能である。例えば、画像およびビデオの表情分類の用途シナリオでは、個別の表情(例えば、疲れ、戸惑い、苦しみなど)は、少ないサンプルしか持たない可能性がある。また、医療補助診断の応用シナリオでは、例えば、希少疾患のサンプル数が比較的入手しにくい。また、疑わしいターゲット識別の用途シナリオでは、例えば、ビデオにおけるあるフレームにおいて疑わしいターゲットをラベリングするには、この疑わしいターゲットに関する大量のサンプルを期待することも相対的に困難である。少量のラベル付きデータのみを用いて小サンプル分類タスクを実行できるか否かは非常に重要な課題であり、学界でも産業界でも注目されている。
本開示は、上記の問題を考慮して設計されたものである。本開示の目的は、分類方法を提供し、少量のラベリングサンプルのみがサポートされている場合でも、高精度で検出サンプルを正確に分類することができる。本開示の基本的な考え方は、まず、大量のラベリングデータを有する類似するタスクを使用してモデルをトレーニングして、モデルが十分な先行知識を取得するようにし、次に、テストに少量のラベリングデータを参照サンプルセットとして導入して、先行知識を有するモデルを使用して検出サンプルのカテゴリを予測する。
本開示の一態様は、分類方法を提供し、検出サンプルの検出サンプル特徴を抽出するステップと、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するステップであって、各グループの参照サンプルは、同じカテゴリを有するステップと、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップと、各グループの参照サンプルについて、前記類似度の平均値を算出するステップと、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含む。
いくつかの実施例では、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップは、前記複数の参照サンプル特徴のうちの各参照サンプル特徴のサンプル分布分散を算出するステップと、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、前記特徴距離に基づいて前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、を含む。
いくつかの実施例では、前記特徴距離は、ユークリッド距離とコサイン距離のうちの1つ又は複数を含む。
いくつかの実施例では、当該分類方法は、softmax活性化関数又はsigmoid活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が[0,1]の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む。
いくつかの実施例では、当該分類方法は、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離に第1の係数を乗算して、拡大された特徴距離を取得するステップと、前記拡大された特徴距離に基づいて前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、をさらに含む。
いくつかの実施例では、当該分類方法は、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離の理論的な最大値及び最小値に基づいて、前記第1の係数の値の範囲を算出するステップをさらに含む。
いくつかの実施例では、前記複数グループの参照サンプルは、少なくとも2つグループの参照サンプルを含み、各グループの参照サンプルは、少なくとも2つの参照サンプルを含む。
本開示の別の態様は、分類のためのニューラルネットワークのトレーニング方法を提供し、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップと、検出サンプルの検出サンプル特徴を抽出するステップと、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出するステップと、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップと、類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するステップと、第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、を含む。
いくつかの実施例では、前記トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、前記トレーニングデータセットからN個のカテゴリを選択し、前記N個のカテゴリの各カテゴリからK個のトレーニングサンプルを選択して前記参照サンプルセットを構成するステップと、前記N個のカテゴリから前記参照サンプルセットと重複しないトレーニングサンプルを検出サンプルとして選択するステップと、を含む。
いくつかの実施例では、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップは、前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出するステップと、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、前記特徴距離に基づいて前記検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と各参照サンプル特徴との類似度として算出するステップと、を含む。
いくつかの実施例では、前記第1の損失関数は、バイナリ交差エントロピー損失関数であり、前記第1の損失関数の第1の損失値は、前記検出サンプルの実際カテゴリと前記検出サンプルの予測カテゴリとの差を示す。
いくつかの実施例では、前記特徴距離は、ユークリッド距離とコサイン距離のうちの1つ又は複数を含む。
いくつかの実施例では、前記分類のためのニューラルネットワークのトレーニング方法は、softmax活性化関数又はsigmoid活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が[0,1]の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む。
いくつかの実施例では、前記分類のためのニューラルネットワークのトレーニング方法は、前記第1の損失関数の第1の損失値が第1の閾値より大きい場合、前記ニューラルネットワークに対して反復的にトレーニングするステップをさらに含む。
いくつかの実施例では、前記分類のためのニューラルネットワークのトレーニング方法は、前記トレーニングデータセットから消去サンプルを選択するステップと、前記消去サンプルの消去サンプル特徴を抽出するステップと、前記検出サンプル特徴と前記消去サンプル特徴との第1の特徴距離を取得するステップと、前記検出サンプルと同じカテゴリに属するK個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得するステップと、前記検出サンプル特徴と前記参照サンプル特徴中心との第2の特徴距離を取得するステップと、前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、をさらに含む。
いくつかの実施例では、前記検出サンプルと前記K個の参照サンプルとは同じ第1の属性を有し、前記検出サンプルと前記消去サンプルとは同じ第2の属性を有し、前記第1の属性は前記第2の属性とは異なる。
いくつかの実施例では、前記第2の損失関数は、コサイン距離損失関数であり、前記第1の特徴距離は、前記検出サンプル特徴と前記消去サンプル特徴とのコサイン距離に対応し、前記第2の特徴距離は、前記検出サンプル特徴と前記参照サンプル特徴中心とのコサイン特徴距離に対応する。
いくつかの実施例では、前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、前記第1の特徴距離が第2の閾値より大きく、前記第2の特徴距離が第3の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む。
いくつかの実施例では、前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、前記第1の特徴距離が前記第2の閾値とオフセットとの合計より大きく、前記第2の特徴距離が前記第3の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む。
本開示の別の態様は、分類装置を提供し、検出サンプルのうちの検出サンプル特徴を抽出し、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するように構成される特徴抽出モジュールであって、各グループの参照サンプルは、同じカテゴリを有する特徴抽出モジュールと、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、各グループの参照サンプルについて、前記類似度の平均値を算出するように構成される類似度取得モジュールと、を含む。当該分類装置は、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するように構成されるカテゴリ決定モジュールをさらに含む。
本開示の別の態様は、分類のためのニューラルネットワークのトレーニング装置を提供し、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するように構成されるサンプル選択モジュールと、検出サンプルの検出サンプル特徴を抽出し、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出するように構成される特徴抽出モジュールと、を含む。当該トレーニング装置は、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得し、各参照サンプルのカテゴリについて、前記類似度の平均値を算出するように構成される類似度取得モジュールと、をさらに含む。当該トレーニング装置は、前記類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するように構成される予測モジュールをさらに含む。当該トレーニング装置は、第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新するように構成されるパラメータ更新モジュールをさらに含む。
本開示のさらに別の態様は、電子機器を提供し、プロセッサと、1つ又は複数のコンピュータプログラムモジュールが記憶されているメモリと、を含み、前記1つ又は複数のコンピュータプログラムモジュールは、前記プロセッサによって実行される時、本開示で開示される分類方法、及び本開示で開示される分類のためのニューラルネットワークのトレーニング方法を実行する。
本開示のさらに別の態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令がプロセッサによって実行される時、本開示で開示される分類方法、及び本開示で開示される分類のためのニューラルネットワークのトレーニング方法を実行する。
以下、図面を参照して本開示の実施例をより詳細に説明する。図面には、本開示のいくつかの実施例が示されているが、本開示は、ここで説明した実施例に限定されるものではなく、逆に、本開示をより明確かつ完全に理解するために提供されるものであることを理解されたい。本開示の図面および実施例は、例示的な作用にのみ使用され、本開示の保護範囲を制限するものではないことを理解されたい。
本開示の方法の実施方式に記載された各ステップは、異なる順序で実行されてもよく、及び/又は並行して実行されてもよいことを理解されたい。さらに、方法の実施例は、他のステップを含むことができ、及び/又はいくつかのステップを省略することができる。
従来の小サンプル分類問題は、一般的には、N分類Kサンプル(「N-way K-shot」とも呼ばれる)問題としてモデリングすることができる。図1はサンプル分類方法の全体的な構想の概略図を示す。
一般的に、N-way K-shot問題は、トレーニング段階との第1段階と、テスト段階との第2段階と、の2つの段階にモデリングすることができる。
トレーニング段階について、1つの従来の大型データセット(図1に示す7つの表情カテゴリを含むデータセット)が存在すると仮定すると、当該大型データセットは、各カテゴリに対して幾千幾万のラベリングデータを有し、当該大型データセットをメタデータセットとすることができる。
まず、当該メタデータセットからN個のカテゴリをランダムに抽出して、モデルをトレーニングするためのカテゴリとする。例えば、図1に示す概略図では、メタデータセットから3つの表情カテゴリ(すなわち、N=3、カテゴリは、「怒り」と、「軽蔑」と、「嫌悪」とであり、)をランダムに抽出する。次に、このN個の表情カテゴリからK個のサンプルをそれぞれ抽出してNxKサイズの参照サンプルセット(例えば、図1では、K=2)を構成する。同時に、このN個の表情カテゴリからM個のサンプルをそれぞれ抽出して、NxMサイズの検出サンプルセット(例えば、図1では、M=1)を構成する。なお、検出サンプルセットに含まれるカテゴリは、参照サンプルセットに含まれるカテゴリと同じであるべきであるが、検出サンプルセットのうちのNxM個のサンプルは参照サンプルセットのうちのNxK個のサンプルと重複すべきでない。
メタデータセットから上記の参照サンプルセットと検出サンプルセットをそれぞれ抽出した後、抽出された参照サンプルセットと検出サンプルセットを分類のためのモデルに同時に入力して、当該モデルをトレーニングする。なお、当該トレーニングプロセスには、異なる参照サンプルセットと検出サンプルセットに対する大量の反復処理を含む。トレーニングを経たモデルは、大量のラベリングデータを有する類似するタスクの先行知識を取得したことに相当する。当該モデルを使用して、少量のラベリングデータのみを有するターゲットタスクをテストする。少量のラベリングデータに対する当該ターゲットタスクをテスト段階としてモデリングする。
テスト段階について、一連の検出対象データをテスト段階の検出サンプルセットとして構築し、同時に、当該検出サンプルセットのうちの各検出対象データのカテゴリに対応する少量のラベリングデータをテスト段階の参照サンプルセットとして構築すると仮定する。図1に示す例では、例えば、3つの表情データを検出サンプルセットとして構成し、この3つの表情データのカテゴリに対応する3x2サイズのラベリングデータを参照サンプルセットとして構築する。検出サンプルセットのうちの各表情データについて、それは参照サンプルセットのうちの3つの表情カテゴリのうちの1つに属することは分かるが、具体的には、どの表情カテゴリに属することは分からないため、トレーニング済みのモデルが前トレーニングされた先行知識に基づいて対応する表情カテゴリとしてラベリングする必要がある。なお、テスト段階に対応する表情カテゴリ(例えば、疲れ、戸惑い、又は苦しみ)は、トレーニング段階のメタデータセットのうちの表情カテゴリ(例えば、怒り、軽蔑、嫌悪、恐怖、喜び、悲しみ、及び驚き)と異なり、このことがトレーニングタスクを「同じタスク」ではなく「類似するタスク」と呼ぶ理由である。
その後、テスト段階の検出サンプルセットと参照サンプルセットをトレーニング後のモデルに入力し、モデルは、前のトレーニング知識に基づいて検出サンプルセットのうちのサンプル又はデータを対応するカテゴリとしてマークし、すなわち検出サンプルに対する分類タスクを完了する。
以上、小サンプル分類方法の全体的な構想と大まかなステップを簡単に説明した。なお、上記の方法では、「顔の表情」この属性に対して当該小サンプル分類方法が説明されているが、これは単なる例示であり、限定ではない。当業者は、ニーズに応じて、上記の「顔の表情」タスクを、身体動作認識、医学画像疾患診断、車両認識、及び、他の類似の小サンプル分類タスクを含むがこれらに限定しない他の用途シナリオでの類似するタスクに置き換えることができる。また、さらに理解する必要があることは、上記の「メタデータセット」について、7つの表情カテゴリの例のみを挙げられているが、理解する必要があることは、実際の用途では、当該メタデータセットは、7よりもはるかに大きい分類と、各分類についてより多くの例とを有することができ、以上は、N-way K-shotの例を3-way 2-shotとしたのは、単なる簡単に説明するためであり、本開示の限定と見なされるべきではない。
以下では、図2A-2Cを組み合わせてサンプル分類問題に対する例示的な解决方法を説明する。図2Aはサンプル分類のためのニューラルネットワークモデルの概略図を示す。図2Bはサンプル分類方法の例示的なフローチャートを示す。図2Cは図2A-2Bに示すモデルとサンプル分類方法の結果の概略図を示す。
図2A-2Bに示すフローチャートは図1に示すトレーニング段階に対応する。しかし、理解する必要があることは、本開示のモデルについて、トレーニング段階とテスト段階の差異点は、入力サンプルが異なることと、バックプロパゲーション法を使用してモデルを反復的に更新して最適化するか否かにあり、トレーニング段階とテスト段階のコアアルゴリズムは、基本的に同じである。簡単にするために、図2A-2Bに示す例をトレーニング段階のステップフローと見なし、当業者はニーズに応じてテスト段階に対応すると見なすこともでき、本開示はこれについて限定しない。
図2Aに示すように、参照サンプルセットが、怒りと、軽蔑と、嫌悪との3つの表情カテゴリを含み、各表情カテゴリが当該カテゴリに属する5つのサンプル(すなわち、3-way 5-shot)を含むと仮定する。参照サンプルセットのうちのこの15の参照サンプル(簡単にするために、図2Aには各カテゴリの1つの参照サンプルのみを示す)を特徴抽出器f(θ)に入力し、同時に1つの検出サンプルを特徴抽出器f(θ)に入力して、15の参照サンプル特徴と1つの検出サンプル特徴をそれぞれ取得する。いくつかの実施例では、検出サンプル特徴と各カテゴリの参照サンプル特徴との特徴距離を算出するために、まず、各カテゴリの参照サンプル特徴に対して平均プーリングを行い、次に、当該カテゴリの参照サンプル中心又は特徴中心を算出して、各カテゴリの参照サンプル中心(例えば、この例では、「怒り」と、「軽蔑」と、「嫌悪」との3つの参照サンプル中心を取得する)を取得した後、検出サンプル特徴と各参照サンプル中心の距離を算出し、次に、検出サンプル特徴と各カテゴリの参照サンプル中心の距離に基づいて、2つずつ対比する線形分類器を使用して検出サンプルと各カテゴリの類似度を算出して、検出サンプルを分類し、次に、クロスエントロピー損失関数を使用してモデルのパラメータを更新する。
参照サンプル中心(又は特徴中心)を算出するこの方法は、精度の面で限られている。例えば、図2Bに示すように、特徴中心を算出するプロセスでは、各カテゴリに対して、5つの参照サンプル特徴(f1、f2、…、f5)を抽出し、次に、5つの参照サンプル特徴(f1、f2、…、f5)に対して平均プーリングを行って各カテゴリの特徴中心Cを取得する。各カテゴリの特徴中心を算出する方法は、以下の式(1)で表すことができ、
その中、Cnは、N個のカテゴリのうちのN番目のカテゴリの特徴中心を表し、fθは、特徴抽出関数を表し、fθ(xi)は、N番目のカテゴリのうちのi番目のサンプルの参照サンプル特徴を表し、その中、NとKは、上記のN-way K-shotのN及びKにそれぞれ対応し、その具体的な意味はここで詳細に説明しない。
特徴中心を算出する方式は、式(1)に示す線形平均方法であるため、参照サンプル特徴のいくつかの顕著な情報が平滑化されて、特徴中心の情報損失が発生し、モデルの分類能力が低下する。
例えば、図2Bに示す例では、それぞれ「怒り」と、「軽蔑」と、「嫌悪」とについて特徴中心を算出するため、その中の「嫌悪」表情カテゴリの特徴中心の算出プロセスでは、例えば、1番目の参照サンプルの「眉をひそめる」特徴が十分に顕著ではない場合、他の4つのサンプルと線形平均を行うことによって「眉をひそめる」の情報が平滑化され、類似度算出結果において、検出サンプルの特徴Qが「怒り」カテゴリの特徴中心に近いため、検出サンプルは「怒り」カテゴリに属すると誤判断され、検出サンプルの実際カテゴリは「嫌悪」であるべきである。これは検出サンプルの誤判断になる。
いくつかの実施例では、以下の式(2)で検出サンプルxjがカテゴリnに属する確率(又は検出サンプルと参照サンプルとの類似度になる)を算出することができ、
ここで、Cnは、N個のカテゴリのうちのN番目のカテゴリの特徴中心を表し、<.,.>は、2つの要素間のコサイン距離を表す。
図2Cは、図2A-2Bに示すモデルとサンプル分類方法の線形平均の結果の概略図を示す。
図2Cに示すように、上記の「嫌悪」カテゴリについて、特徴1~特徴5が「嫌悪」カテゴリの5つの参照サンプル特徴(f1、f2、…、f5)にそれぞれ対応し、特徴1~特徴5の第2の次元(横座標が「2」である)が「眉をひそめる」特徴を表すと仮定する。この場合、特徴に対応する数字が大きいほど顕著にならず、数字が小さいほど特徴が顕著になる場合、1番目の参照サンプルについて、その特徴1の第2の次元の数値は16であり、他の参照サンプルの特徴2~特徴4に比較して、当該第2の次元に対応する「眉をひそめる」特徴が十分に顕著ではなく、他の4つのサンプルと線形平均を行うことによって「眉をひそめる」の情報が平滑化され、すなわち、図2Cに示す「平均特徴」の第2の次元の数値は高くなる。前述のように、「眉をひそめる」の情報が平滑化されるため、類似度算出結果において誤判断を生じやすくなる。
上記の問題を解决するために、本開示は、特徴中心を算出せず、検出サンプル特徴とすべての参照サンプル特徴との間で2つずつの特徴距離を算出する方法を提供して、情報の平滑化と重要な特徴の紛失を回避することによって、分類の精度を向上させる。
上記のように、通常、小サンプル分類方法をそれぞれトレーニング段階とテスト段階としてモデリングし、以下はトレーニング段階から開始して、本開示の小サンプル分類方法の様々な実施例を説明する。
図3は本開示の実施例による分類のためのニューラルネットワークのトレーニング方法300の例示的なフローチャートを示す。図4は本開示の実施例による分類のためのニューラルネットワークモデルの概略図を示す。
図3に示すように、トレーニング方法300は、以下のステップを含む。
S301:トレーニングデータセットから参照サンプルセットと検出サンプルとを選択し、
S302:検出サンプルの検出サンプル特徴を抽出し、
S303:参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出し、
S304:検出サンプル特徴と各参照サンプル特徴との類似度を取得し、
S305:類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定し、
S306:第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。
S301:トレーニングデータセットから参照サンプルセットと検出サンプルとを選択し、
S302:検出サンプルの検出サンプル特徴を抽出し、
S303:参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出し、
S304:検出サンプル特徴と各参照サンプル特徴との類似度を取得し、
S305:類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定し、
S306:第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。
ステップS301では、まず、トレーニングデータセットからニューラルネットワークをトレーニングするための参照サンプルセットと検出サンプルとを選択する。本実施例では、トレーニングデータセットは、上記の図1に記載のメタデータセットを組み合わせたものに類似し、当該トレーニングデータセットは、NxK個より大きいトレーニングサンプルデータを含む。トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、まずトレーニングデータセットからN個のカテゴリを選択し、前記N個のカテゴリの各カテゴリからK個のトレーニングサンプルを選択して参照サンプルセットを構成するステップと、前記N個のカテゴリから前記参照サンプルセットと重複しないトレーニングサンプルを検出サンプルとして選択するステップと、を含む。
例えば、図4に示すように、トレーニングデータセットから「怒り」、「軽蔑」、「嫌悪」の3つのカテゴリを選択し、この3つのカテゴリから5つのサンプルをそれぞれ選択して参照サンプルセットを構成する。次に、この3つのカテゴリのうちの1つのカテゴリから参照サンプルと重複しない1つのサンプルを検出サンプル(例えば、図4に示す「嫌悪」カテゴリのサンプル)として選択する。
なお、本実施例では1つの検出サンプルの例が示されているが、これは説明の便宜のためだけである。実際のトレーニングプロセスでは、絶えず循環して反復してニューラルネットワークのパラメータを更新する必要があるため、大量の検出サンプル及びそれに対応する参照サンプル集合が必要である。
選択可能には、ステップS301では、トレーニングデータセットから選択された検出サンプルは、1つの検出サンプルであってもよく、複数の検出サンプルの集合であってもよい。検出サンプルが複数の検出サンプルの集合である場合、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、まず、トレーニングデータセットからN個のカテゴリを選択し、前記N個のカテゴリの各カテゴリからK個のトレーニングサンプルを選択して参照サンプルセットを構成するステップと、前記N個のカテゴリから前記参照サンプルセットと重複しない複数のトレーニングサンプルを検出サンプルセットとして選択するステップと、を含む。複数のトレーニングサンプルを検出サンプルセットとして選択する場合、後続の処理では、当該N個の特定のカテゴリに対する検出サンプルのトレーニングがすべて完了するまで、検出サンプルセットから1つの検出サンプルを順次に取得して毎回のトレーニングされた入力データとすることができ、次に、トレーニングデータセットから他のN個の特定のカテゴリを再選択して類似するトレーニングを行う。
例えば、図6は本開示の実施例による分類のためのニューラルネットワークのトレーニング方法の動作概略図を示す。図6に示す例では、検出サンプルは、単一の画像ではなく、それぞれ上記のN個のカテゴリ(例えば、怒り、軽蔑、嫌悪)から各1つのサンプルを選択して構成された検出サンプルセットである。図6に示す例では、例えば、まず、検出サンプルセットのうちの1番目のサンプルに対して上記のステップS302-S307に示す処理を実行し、1番目のサンプルの予測結果を使用してニューラルネットワークのパラメータを更新し、次に、2番目の検出サンプル、及び3番目の検出サンプルを順次に使用してニューラルネットワークに対して類似するトレーニングを行うことができる。
ステップS302では、検出サンプルの検出サンプル特徴を抽出し、ステップS303では、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出する。図4に示すように、同一の特徴抽出器f(θ)を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴を抽出することができ、ここで、抽出された参照サンプル特徴と検出サンプル特徴は、多次元特徴ベクトル(例えば、512次元)であってもよい。つまり、図4に示す例について、抽出された参照サンプル特徴は、3つのカテゴリに対応する15の多次元特徴ベクトルを含み、抽出された検出サンプル特徴は、検出サンプルに対応する1つの多次元特徴ベクトルを含む。
なお、図4では同じ特徴抽出器f(θ)を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴とを抽出する方法を示すが、実際のニーズに応じて、参照サンプル特徴と検出サンプル特徴の抽出について異なる特徴抽出器を適用することができる。
次に、ステップS304では、前記検出サンプル特徴と複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得する。図5は本開示の実施例による検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法500の例示的なフローチャートを示す。図5に示すフローチャートの各ステップは、図3のステップ304の細分化ステップと見なすことができる。
図5に示すように、検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法500は、以下のS501~S503を含み、
S501:前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出し、
S502:前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出し、
S503:特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。
S501:前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出し、
S502:前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出し、
S503:特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。
ステップS501では、各参照サンプルの参照サンプル特徴のサンプル分布分散(variance)を算出する。すなわち、上記の15の参照サンプル特徴をサンプル分布分散生成器に入力して、15の参照サンプルのサンプル分布分散を取得し、次に、15の参照サンプルのサンプル分布分散を図4に示す分類器の重みとする。次に、ステップS502では、15の参照サンプルのサンプル分布分散について、2つずつ対比する線形分類器を使用して検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離を算出する(すなわち、図4に示す「Distance」)。次に、ステップS503では、特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を算出し、検出サンプル特徴と各参照サンプル特徴との類似度とする。
いくつかの実施例では、検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離は、ユークリッド距離(Euclid Distance)又はコサイン距離のうちの1つ又は複数として算出することができる。
いくつかの実施例では、softmax分類器又はsigmoid分類器を使用して検出サンプルと各参照サンプルとが同じカテゴリに属する確率を算出することができる。
なお、上記の式でコサイン距離を使用して検出サンプル特徴と参照サンプル特徴との特徴距離を表すが、本開示はこれに限定されない。当業者は、ニーズに応じて検出サンプル特徴と参照サンプル特徴との他の距離を算出して両者間の差を表すことができ、他の距離は、ユークリッド距離、アースムーバー(Earth Mover)距離などを含むが、これに限定されない。
図3に戻ると、検出サンプル特徴と各参照サンプル特徴との類似度を取得した(S304)後、ステップS305まで処理する。ステップS305では、各カテゴリに対して、類似度の平均値を算出し、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。図4の概略図を例とし、検出サンプル特徴と「怒り」、「軽蔑」、「嫌悪」の3つのカテゴリのうちの5つの参照サンプル特徴の2つずつの間の類似度を算出した後、それぞれ「怒り」、「軽蔑」、「嫌悪」の3つのカテゴリのうちの各カテゴリについて、5つの類似度の値を平均して、「怒り」、「軽蔑」、「嫌悪」の3つのカテゴリのうちの各カテゴリについての類似度の平均値を取得する。次に、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。
図6に示す動作概略図は、より直感的な方式で図3のステップS302-S305、及び図5のステップS501-S503の詳細を示す。
図6に示すように、参照サンプルセットは、トレーニングデータセットから選択された3つの分類(すなわち、「怒り」、「軽蔑」、「嫌悪」)の合計15の参照サンプルを含み、検出サンプルセットは、この3つの分類に属する重複しない他の3つの検出サンプルを含む。参照サンプルセットのうちの15の参照サンプルを特徴抽出器f(θ)に入力して、3つのグループの参照サンプル特徴を取得することができる。すなわち「怒り」カテゴリに対応する参照サンプル特徴集{f11(θ),f12(θ),f13(θ),f14(θ),f15(θ)}、「軽蔑」カテゴリに対応する参照サンプル特徴集{f21(θ),f22(θ),f23(θ),f24(θ),f25(θ)}、及び「嫌悪」カテゴリに対応する参照サンプル特徴集{f31(θ),f32(θ),f33(θ),f34(θ),f35(θ)}である。同時に、同じ特徴抽出器f(θ)を使用して検出サンプルセットのうちの3つの検出サンプルの検出サンプル特徴{f1(θ),f2(θ),f3(θ}を抽出する。
最初のトレーニングでは、まず、「怒り」カテゴリに対応する1番目の検出サンプル特徴f1(θ)を選択してニューラルネットワークをトレーニングする。例えば、検出サンプル特徴f1(θ)について、f1(θ)と上記の15の参照サンプル特徴との特徴距離をそれぞれ算出して、3つのグループの合計15の特徴距離{D11,D12,D13,D14,D15}、{D21,D22,D23,D24,D25}、及び{D31,D32,D33,D34,D35}を取得する。いくつかの実施例では、特徴距離を検出サンプル特徴と参照サンプル特徴とのコサイン距離として算出することができる。例えば、式(5)に基づいて検出サンプル特徴fk(θ)と参照サンプル特徴fij(θ)とのコサイン距離Dijを算出することができ、
ここで、図6に示す例について、kは、1、2又は3に等しくなければならない。iは、1、2又は3に等しくなければならない。jは、1、2、3、4又は5に等しくなければならない。式(5)に基づいて、コサイン距離Dijは、[0,2]の範囲内にあるべきである。
上記の3つのグループの合計15の特徴距離を算出した後、各特徴距離に基づいて、それに対応する類似度をそれぞれ算出することができる。例えば、図6は15の特徴距離から対応する15の確率値を算出する例を示す。例えば、上記の式(3)又は(4)に基づいて、この15の確率値P11、P12、…、P32を算出することができる。
なお、本開示は、「類似度」と「あるカテゴリに属する確率」との2つの記述に言及しているが、両者の意味は同等であり、すなわちすべて検出サンプルと参照サンプルとの類似の度合いを表すか、又は検出サンプルが参照サンプルカテゴリに属する確率を表す。検出サンプルと参照サンプルとの類似度が高いほど、検出サンプルが参照サンプルのカテゴリに属する確率が大きくなる。したがって、「類似度」と「あるカテゴリに属する確率」とは、いくつかの場合には互換的に使用することができる。また、注意する必要があることは、一般的には、本開示で言及される用語「特徴距離」は、「類似度」又は「あるカテゴリに属する」と逆の意味である。例えば、2つの特徴ベクトルについて、「特徴距離」が大きいほど、この2つの特徴ベクトル差が大きくなり、すなわち類似度が低くなることを表し、「特徴距離」が小さいほど、この2つの特徴ベクトル差が小さくなり、すなわち類似度が高くなることを表す。
前述のように検出サンプルと各参照サンプルとの類似度を取得した後、各カテゴリに対して、各カテゴリの類似度の平均値をそれぞれ算出することもできる。例えば、「怒り」カテゴリの類似度の平均値をP1avgとして算出し、「軽蔑」及び「嫌悪」カテゴリの類似度の平均値をP2avgとP3avgとしてそれぞれ算出する。
次に、図3に戻ると、ステップS305では、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。例えば、図6のP1avg=0.8、P2avg=0.6、P3avg=0.2であると仮定すると、1番目の検出サンプルと「怒り」カテゴリとの類似度が最大であることが証明され、ニューラルネットワークは、当該1番目の検出サンプルを「怒り」カテゴリに属するものとして予測する。
また、いくつかの実施例では、図3に示すトレーニング方法は、さらに、softmax活性化関数又はsigmoid活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が[0、1]の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含むことができる。
つまり、図6で算出されたP1avg=0.8、P2avg=0.6、P3avg=0.2である場合、P1avg+P2avg+P3avg≠1である。この場合、活性化関数softmaxを使用してP1avg、P2avg、P3avgの値を正規化して、正規化された類似度の平均値の和が1であるようにすることができる。例えば、正規化されたP1’avg=0.5、P2’avg=0.375、P3’avg=0.125である。
これまでのところ、図4のニューラルネットワークモデルに示すように、既に2つずつ対比する線形分類器によって1番目の検出サンプルのカテゴリを予測する。しかしながら、ニューラルネットワークのトレーニング段階では、さらに、今回出力する予測結果が正しいか否かを決定し、予測結果と実際の結果との差に基づいて、第1の損失関数を使用してニューラルネットワークのパラメータを更新する必要がある(図3のステップS306)。
好ましくは、本開示の第1の損失関数は、バイナリ交差エントロピー損失関数(Binary cross entropy loss function)であり、バイナリ交差エントロピー損失関数の損失値に基づいて、ニューラルネットワークのパラメータを更新することができる。前記損失値は、前記検出サンプルの実際カテゴリと前記検出サンプルの予測カテゴリとの差を示す。
バイナリ交差エントロピー損失関数は、以下で定義することができ、
ここで、
ここで、Mは分類器のカテゴリ総数であり(特に、図4に示す2つずつ対比する分類器について、ここのM=3*5=15)、nは、Mのうちいずれかのカテゴリであり、wnは、カテゴリ重み(デフォルトは1である)であり、xnは、検出サンプル特徴とN番目の参照サンプル特徴の類似確率であり、値は(0,1)であり、ynは、検出サンプルとN番目の参照サンプルが同一のカテゴリに属するか否かのラベリングであり、検出サンプルとN番目の参照サンプルが同一のクラスに属する場合、yn=1であり、そうでない場合、yn=0である。
いくつかの実施例では、損失関数の損失値が第1の閾値より大きい場合、予測値と実際の値との差が大きすぎて、ニューラルネットワークの損失関数がまだ収束されていないことを説明し、損失関数の損失値が前記第1の閾値より小さいまで、ニューラルネットワークに対して2回目、3回目、さらにより多くの反復的なトレーニングを行う必要がある。いくつかの実施例では、第1の閾値は、極小値を表し、例えば、第1の閾値はεに等しく、ε=1e-12である。
以上は、図面を組み合わせて検出サンプル特徴と各参照サンプル特徴を使用して2つずつ対比して、平均を求める方法でニューラルネットワークをトレーニングする実施例を説明した。特徴中心を使用する方法と比較して、2つずつ対比して平均を求める方法は、顕著な情報の紛失を防止して、トレーニング後のモデルがより高い精度又は正確率を有することができる。
しかしながら、以上で説明した実施例の分類方法は、顕著な情報を紛失する問題を効果的に防止することができるが、カテゴリ間の差異性には依然としていくつかの不足がある。例えば、検出サンプル特徴f(x)、及びNxK個のサンプル分散W1、W2、…、Wm(ここで、m=N*K)について、コサイン距離を使用してf(x)とサンプル分散との距離をそれぞれ算出する場合、特徴距離D1、D2、…、Dmを取得する。softmax又はsigmoid分類器を使用してf(x)と1、2、…、M個の参照サンプルが同一のクラスに属するか否かの確率P1、P2、…、Pmを算出する場合、f(x)とサンプル分散Wとの距離Dの分散が小さく場合、分類器によって出力された確率P1、P2、…、Pm間の差が小さすぎて、分類が困難になる。
上記のクラス間の差が小さすぎる問題を解决するために、いくつかの実施例では、拡大係数を導入して特徴距離Dを拡大して、分類器の各カテゴリに対する出力確率がより大きい差を有するようにする。
図7は本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。
図7に示すように、検出サンプル特徴と各参照サンプル特徴のサンプル分散を2つずつ対比して両者の特徴距離を算出した後、当該特徴距離「Distance」を係数「scale」に乗算して、次に、両者の積を活性化関数に入力して検出サンプルが各分類に属する確率を算出する。
検出サンプル特徴f(x)について、参照サンプルと検出サンプルが同一のクラスに属する確率P>=1-ε、また、参照サンプルと検出サンプルが同一のクラスに属していない確率P<εであることを望ましいし、εは、ゼロより大きい極小値(例えば、ε=e-12)である。
例えば、活性化関数がsoftmaxである場合、以下の式(8)と式(9)に基づいて拡大係数scaleの値の範囲を算出する。
式(8)から以下を解くことができ、
式(9)から以下を解くことができ、
以上の両者を組み合わせて以下の拡大係数scaleの範囲を取得することができ、
例えば、本実施例では、N=3、及びε=1e-12である場合、拡大係数scale∈[12,15]である。
同様に、活性化関数がsigmoidである場合、以下の式(10)と式(11)に基づいて拡大係数scaleの値の範囲を算出することができる。
式(10)から以下を解くことができ、
式(11)から以下を解くことができ、
以上の両者を組み合わせて以下の拡大係数scaleの範囲を取得することができ、
しかしながら、この場合、上記の不等式は、左側が正であり、右側が負である場合が発生され、このような不合理な場合が発生することを回避するために、特徴距離に対して以下に示す正規化を行って、正規化された特徴距離が[-1,1]の範囲内にあるようにし、以下の式(12)に基づいて最大と最小特徴距離を正規化し、
最大と最小特徴距離を正規化した後、
これにより解くことができ、
すなわち、
ε=1e-12である場合、scale=27である。
上記はそれぞれsoftmaxとsigmoidの2つの活性化関数の拡大係数の値の範囲の算出を説明する。用途においては、実際のニーズに応じて対応する拡大係数の値を選択することができる。
当該拡大係数を設置することによって、活性化関数の各カテゴリに対する出力確率がより大きい差を有することができ、分類がより容易になることができる。また、上記の拡大係数の算出方法は、拡大係数を手動で調整することによる余分な作業量を効果的に回避することもできる。
図8は、図7に示す分類のためのニューラルネットワークモデルの結果に対応する概略図を示す。
図8に示すように、横軸は、15の参照サンプルのサンプル番号を表し、縦軸は、検出サンプルと各に対応する参照サンプルが同じカテゴリに属する確率を表す。図8に示すように、「怒り(A)」、「軽蔑(C)」、及び「嫌悪(D)」の3種類の表情カテゴリを参照サンプルセットのカテゴリとして選択した場合、検出サンプルの特徴と参照サンプルの特徴との特徴距離に対して上記のような拡大を行っていない場合、「original」をラベル付きとする確率分布曲線から分かるように、各カテゴリの参照サンプルに対応する確率間の差は非常に小さい(例えば、基本的には、0.05-0.1の区間内に分布される)。対照的に、検出サンプルの特徴と参照サンプルの特徴との特徴距離に対して上記のような拡大を行う場合、例えば、拡大係数15を乗算すると、「scale15」をラベル付きとする確率分布曲線から、分かるように、各カテゴリの参照サンプルに対応する確率間の差は、拡大される(例えば、最大確率値は約0.4であり、最小確率値は0に近づく)。したがって、特徴距離に対して拡大係数を設置する場合、各カテゴリの参照サンプルに対応する確率間の差は、顕著に拡大されて、より正確な分類結果を出力するのに役立つ。
以上は、図面を組み合わせて検出サンプル特徴と各参照サンプル特徴を使用して2つずつ対比して、平均を求める方法でニューラルネットワークモデルをトレーニングする実施例を説明する。同時に、特徴距離を拡大係数に乗算して、次に、両者の積を活性化関数に入力して検出サンプルが各分類に属する確率を算出する改善方法を提供する。上記の特徴中心を使用する方法と比較して、2つずつ対比して平均を求める方法は、顕著な情報の紛失を防止して、トレーニング後のモデルがより高い精度又は正確率を有することができ、拡大係数を乗算する方法は、各カテゴリ間の予測確率の差をさらに増大させ、分類の精度をさらに向上させることができる。
しかしながら、上記の方法は、情報紛失問題による誤判断問題を考慮し、同時に予測確率間の差が小さすぎることによる誤判断問題を考慮するが、小サンプル分類タスクのうちの異なるカテゴリのサンプル間の類似性による誤判断問題を効果的に解决することができない。
言い換えれば、同一のサンプルは複数の属性を有することができ、例えば、顔サンプルについて、表情特徴に基づいてそれを分類することを望ましい場合があり、この場合、表情特徴に対応する属性を「第1の属性」と呼ぶことができる。しかしながら、いくつかの場合によって、例えば顔認証では、表情特徴ではなく、顔の固有の特徴に基づいてそれを分類できることを望ましい場合があり、この場合、顔の固有の特徴に対応する属性を「第2の属性」と呼ぶことができる。
上記の表情分類方法において以下の状況が出現すると仮定する、検出サンプルがA女性の「怒り」の表情サンプルであり、参照サンプル1がA女性の「悲しみ」の表情サンプルであり、参照サンプル2がB女性の「怒り」の表情サンプルである。表情に基づいて分類するタスクについて、検出サンプルと参照サンプル2とが同じカテゴリに属する確率は、検出サンプルと参照サンプル1とが同じカテゴリに属する確率より大きいことをニューラルネットワークが出力することが望ましいため、ニューラルネットワークが、検出サンプルと参照サンプル1とが同じカテゴリに属する確率は大きいことを出力した場合、実際の「怒り」カテゴリに属する検出サンプルが「悲しみ」に属する表情カテゴリに誤判断されることを意味する。
図9はサンプル分類方法の対応結果の概略図を示す。
図9に示すように、検出サンプルのうちのA女性の固有の顔特徴と参照サンプル1のうちのA女性の固有の顔特徴の類似度が大きいため、表情タスクに対する分類プロセスで「表情」の影響要素が弱化され、「五官特徴」の影響要素が主導的な地位にある。表情の分類タスクに基づいて、検出サンプルと参照サンプル1が同じカテゴリに属する確率(すなわち表情類似度0.7)が検出サンプルと参照サンプル2が同じカテゴリに属する確率(すなわち表情類似度0.6)より大きいことが算出されて、誤判断になる。
上記の状況の発生を回避して、異なる属性間の相互影響を最小限にするために、本開示は「消去」サンプルに基づく改善方法を提供する。
具体的には、本開示は、上記のニューラルネットワークモデルに1つの追加の入力、すなわち「消去」サンプルを増加することによって、ニューラルネットワークが他の属性に関連する共通情報を忘れさせ、ニューラルネットワークがカテゴリ特徴を捕捉する能力を改善し、分類の精度をさらに向上させる。
図10は本開示の実施例による分類のためのニューラルネットワークのトレーニング方法1000の別の例示的なフローチャートを示す。図11は本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。なお、図10に示す各方法のステップは、図3に示す分類方法のさらなる補足ステップと見なすことができる。
図10に示すように、分類のためのニューラルネットワークのトレーニング方法1000は、以下のステップを含む。
S1001:トレーニングデータセットから消去サンプルを選択し、
S1002:消去サンプルの消去サンプル特徴を抽出し、
S1003:検出サンプル特徴と消去サンプル特徴との第1の特徴距離を取得し、
S1004:検出サンプルと同じカテゴリに属するK個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得し、
S1005:検出サンプル特徴と参照サンプル特徴中心との第2の特徴距離を取得し、
S1006:前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。
S1001:トレーニングデータセットから消去サンプルを選択し、
S1002:消去サンプルの消去サンプル特徴を抽出し、
S1003:検出サンプル特徴と消去サンプル特徴との第1の特徴距離を取得し、
S1004:検出サンプルと同じカテゴリに属するK個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得し、
S1005:検出サンプル特徴と参照サンプル特徴中心との第2の特徴距離を取得し、
S1006:前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。
なお、消去サンプルは、検出サンプル間にある次元上での共通情報を有する入力データである。例えば、検出サンプルとK個の参照サンプルとは同じ第1の属性、例えば「表情属性」を有し、検出サンプルと消去サンプルとは、同じ第2の属性、例えば「五官特徴属性」を有することができ、明らかに、当該第1の属性は当該第2の属性とは異なる。
図10に示すように、ステップS1001では、トレーニングデータセットから消去サンプルを選択する。なお、ステップS1001では消去サンプルはトレーニングデータセットから選択されることを限定するが、ニーズに応じて他の集合から消去サンプルを検索又は選択することもでき、本開示はこれについて限定しない。例えば、図9の例について、例えば、現在のトレーニングデータセットにはA女性の「悲しみ」の表情サンプル又は「怒り」とは異なる他の表情サンプルが含まれていないと、他の集合からA女性に関する「悲しみ」表情サンプル又は「怒り」とは異なる他の表情サンプルを選択することができる。例えば、コンピュータ合成又は他の補助プログラムによってA女性に対応する「怒り」とは異なる表情サンプルを生成し、消去サンプルとすることができる。
次に、ステップS1002では、消去サンプルの消去サンプル特徴を抽出する。図11に示すように、消去サンプル特徴の抽出は、参照サンプル特徴と検出サンプル特徴は同じ特徴抽出器f(θ)を使用し、本開示はこれに限定されない。各自の独立した特徴抽出器を使用して参照サンプル特徴と、検出サンプル特徴と、消去サンプル特徴とをそれぞれ抽出することができる。
次に、ステップS1003では、検出サンプル特徴と消去サンプル特徴との第1の特徴距離を取得する。第1の特徴距離を取得する方法は、上記の参照サンプル特徴と検出サンプル特徴との距離を取得することと類似し、ここで詳細に説明しない。
次に、ステップS1004では、検出サンプルと同じカテゴリに属するK個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得する。
例えば、図11では、検出サンプルが既知のラベル付き「嫌悪」を有する場合、参照サンプルセットのうちの「嫌悪」カテゴリに属する5つの参照サンプル特徴について、平均プーリングによってカテゴリが「嫌悪」である参照サンプルの重み中心(「特徴中心」とも呼ばれる)を求める。本実施例では、特徴中心を算出する方法は、図2A-2Bの特徴中心を算出する方法と類似し、ここで詳細に説明しない。
検出サンプルと同じカテゴリに属するK個の参照サンプルの参照サンプル特徴中心を算出して取得した後、ステップS1005では、検出サンプル特徴と参照サンプル特徴中心との第2の特徴距離を取得する。
本実施例では、「第1の特徴距離」は、検出サンプルと「負サンプル」との距離と見なすことができ、「第2の特徴距離」は、検出サンプルと「正サンプル」との距離と見なすことができる。本開示では「消去サンプル」の用語を使用するが、その意味は、当該方法を使用して得られた効果を説明するだけであり、すなわちニューラルネットワークが複数の属性間の共通情報を忘れさせ、実際の操作プロセスでは、実際のサンプルに対する「消去」操作が存在しない。
最後に、ステップS1006では、第1の特徴距離と第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。
いくつかの実施例では、前記第2の損失関数は、コサイン距離損失関数であり、前記第1の特徴距離は、前記検出サンプル特徴と前記消去サンプル特徴との間のコサイン距離に対応し、前記第2の特徴距離は、前記検出サンプル特徴と前記参照サンプル特徴中心との間のコサイン特徴距離に対応する。例えば、コサイン距損失関数は、式(13)で表すことができ、
本開示では、コサイン距離損失関数は、2つのベクトルの類似性と非類似性を評価するために用いられ、2つのベクトルのコサイン値が高いほど、類似性が高くなる。式(13)では、y=1の場合、-cos(x1,x2)の平行移動関数を損失関数として直接に使用する。例えば、上記の参照サンプル特徴中心と検出サンプル特徴について、両者がすべて同様のカテゴリに属するため、式(13)のyは1に等しく、対応する損失関数が1-cos(x1,x2)であるべきである。ここで、x1とx2とをそれぞれ参照サンプル特徴中心と検出サンプル特徴と見なすことができる。y=-1の場合、式(13)のcos(x1,x2)=marginで分割して、2つの特徴ベクトルの非類似性を測定するために用いられる。例えば、上記の消去サンプル特徴と検出サンプル特徴について、両者が異なるカテゴリに属するため、式(13)のyは、-1に等しく、対応する損失関数が、max(0,cos(x1,x2)-margin)であるべきである、ここで、x1とx2とをそれぞれ消去サンプル特徴と検出サンプル特徴と見なすことができる。その中、marginは、[-1,1]範囲内の閾値であり、好ましくは、marginの値は、[0,0.5]の範囲内にある。
同様に、コサイン距離を使用して上記の第1の特徴距離と第2の特徴距離とを表す場合、第1の特徴距離は、d1=1-cos(x1,x)であり、x1及びxは、それぞれ消去サンプル特徴及び検出サンプル特徴である。同様に、第2の特徴距離は、d2=1-cos(x2,x)であり、x2及びxは、それぞれ参照サンプル特徴中心及び検出サンプル特徴である。
いくつかの実施例では、前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、前記第1の特徴距離が第2の閾値より大きく、前記第2の特徴距離が前記第3の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む。例えば、第2の閾値は、2―εであってもよく、ここで、ε=1e-12である。例えば、第3の閾値は、ε=1e-12であってもよい。つまり、消去サンプルを使用してニューラルネットワークをトレーニングする目的は、消去サンプル特徴と検出サンプル特徴との距離をできるだけ大きくし、同時に、参照サンプル特徴中心と検出サンプル特徴との距離をできるだけ小さくして、ニューラルネットワークが現在分類タスクの属性とは異なる他の分類属性の共通情報を忘れさせ、ニューラルネットワークの分類の精度をさらに向上させる。
いくつかの実施例では、ニューラルネットワークの参照サンプル特徴中心と検出サンプル特徴との距離をεに迅速に最適化し、ニューラルネットワークの消去サンプル特徴と検出サンプル特徴との距離を2―εに迅速に最適化するために、トレーニング中に上記の第2の閾値にオフセットを加算し、第1の特徴距離が第2の閾値とオフセットの合計より大きく、同時に第2の特徴距離が前記第3の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止する。
なお、以上は図10と11を組み合わせて「消去」サンプルを導入するトレーニング方法を説明したが、当該トレーニング方法を単独で行うことはできない。実際のトレーニングプロセスでは、図3、4に示すトレーニング方法とニューラルネットワークモデルとを組み合わせてモデルに対して総合的なトレーニングを行う必要があり、上記の第1の損失関数(バイナリ交差エントロピー損失関数)と第2の損失関数(コサイン距離損失関数)の両者を組み合わせてニューラルネットワークに対して総合的なトレーニングを行う。
図12は図11に示すネットワークモデルの結果に対応する概略図を示す。
図12に示すように、「消去サンプル」に関連する第2のトレーニングを導入していない場合、検出サンプルのうちのA女性の固有の顔特徴と参照サンプル1のうちのA女性の固有の顔特徴の類似度が大きいため、表情タスクに対する分類プロセスで「表情」の影響要素が弱化され、同時に「五官特徴」の影響要素が主導的な地位にある。表情の分類タスクに基づいて、検出サンプルと参照サンプル1が同じカテゴリに属する確率(すなわち表情類似度S1=0.7)が検出サンプルと参照サンプル2が同じカテゴリに属する確率(すなわち表情類似度S2=0.6)より大きいことが算出されて、誤判断になる。
対照的に、「消去サンプル」に関連する第2のトレーニングを導入した場合、ニューラルネットワークは、「五官特徴」の影響要素を最小限に弱化することに成功するとともに、「表情特徴」の影響要素を最大限に高めることによって、ニューラルネットワークは、検出サンプルと参照サンプル1が同じカテゴリに属する確率(すなわち表情類似度S1=0.01)が検出サンプルと参照サンプル2が同じカテゴリに属する確率(すなわち表情類似度S2=0.99)よりはるかに小さいことを算出して、検出サンプルの表情カテゴリを正確に認識する。
なお、以上の実施例は、顔の表情と顔の固有の特徴とに対する2つの次元の異なる属性を説明するが、これは限定的なものではない。上記の「消去」サンプルの構想に基づいて他の異なるシナリオに適用する必要があり、類似する設計は、依然として本開示の保護の範囲に属する。例えば、疾患診断用途シナリオでは、ある疾患の特定の特徴を分類の属性とする場合、ニューラルネットワークが同一の人の異なる疾患によって共有される共通情報を忘れさせるようにする必要がある。さらに理解する必要があることは、以上の例はターゲットタスクが「表情」分類であることを示す場合、五官特徴を消去又は忘れさせる例が必要であり、逆の場合にも同様に適用される。例えば、現在のターゲットタスクが「顔認証」である場合、「表情」のこの次元の特徴を弱化することを望ましく、ニューラルネットワークが同一の人に属する参照サンプルに対して高い類似度又は確率を出力できるようにする。
以上は図面を組み合わせて分類のためのニューラルネットワークのトレーニング方法の様々な実施例を説明する。以下は図面を組み合わせてトレーニング済みのニューラルネットワークを使用してテストする方法の実施例、すなわち分類方法の実施例を説明する。
前記のように、本開示の基本的な考え方は、まず、大量のラベリングデータを有する類似するタスクを使用してモデルをトレーニングして、モデルが十分な先行知識を取得するようにし、次に、テストに少量のラベリングデータを参照サンプルセットとして導入して、先行知識を有するモデルを使用して検出サンプルのカテゴリを予測する。しかしながら、注意する必要があることは、テスト段階に対応する分類カテゴリとトレーニング段階の分類カテゴリは異なるべきである。
図13は本開示の実施例による分類方法1300の例示的なフローチャートを示す。図14は本開示の実施例によるネットワークモデルの概略図を示す。
図13に示すように、分類方法1300は、以下のステップを含む。
S1301:検出サンプルの検出サンプル特徴を抽出し、
S1302:複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出し、
S1303:前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、
S1304:各グループの参照サンプルについて、前記類似度の平均値を算出し、
S1305:前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定する。
S1301:検出サンプルの検出サンプル特徴を抽出し、
S1302:複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出し、
S1303:前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、
S1304:各グループの参照サンプルについて、前記類似度の平均値を算出し、
S1305:前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定する。
まず、ステップ1301では、検出サンプルの検出サンプル特徴を抽出し、ステップS1302では、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出する。なお、分類方法1300では、図3に示すトレーニング方法のように、検出サンプルと参照サンプルの選択方式を限定してないが、実際には両者は類似している。両者の差異点は、トレーニング段階のカテゴリについて、大量のラベリングデータで構成されたメタデータセットがあるが、テスト段階のカテゴリについては、実際には、少量のラベリングサンプルのみを有し、また、テスト段階のサンプルカテゴリとトレーニング段階のサンプルカテゴリとは異なることである。例えば、前のトレーニング段階では、トレーニングデータセットは、「怒り」、「軽蔑」、「嫌悪」などに対応する7つのカテゴリのサンプルを含むが、テスト段階のサンプルカテゴリは、「疲れ」、「戸惑い」、及び「苦しみ」の3種類のみに対応し、図14に示すように、この3種類のサンプルカテゴリは、トレーニング段階のトレーニングデータセットに含まれていない。
また、テスト段階で参照サンプルセットに対して選択されたサンプルの数は、トレーニング段階と異なることもできる。
例えば、図14に示すように、それぞれ「疲れ」、「戸惑い」、及び「苦しみ」の3種類の表情カテゴリについて、上記のトレーニング段階に示す3x5個の参照サンプルではなく、各2つのサンプルを参照サンプルセットとして選択する。
例えば、同一の特徴抽出器f(θ)を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴を抽出することができ、ここで、抽出された参照サンプル特徴と検出サンプル特徴とは、多次元特徴ベクトル(例えば、512次元)であってもよい。つまり、図14に示す例について、抽出された参照サンプル特徴は、3つのカテゴリに対応する6つの多次元特徴ベクトルを含み、抽出された検出サンプル特徴は、検出サンプルに対応する1つの多次元特徴ベクトルを含む。
なお、図14は同じ特徴抽出器f(θ)を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴を抽出する方法を示すが、実際のニーズに応じて、参照サンプル特徴と検出サンプル特徴との抽出について異なる特徴抽出器を適用することができる。トレーニング段階では既にこの点について示し、ここで詳細に説明しない。
次に、ステップS1304では、前記検出サンプル特徴と複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得する。
図15は、本開示の実施例による検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法1500の例示的なフローチャートを示す。図15に示すフローチャートの各ステップは、図13のステップ1304の細分化ステップと見なすことができる。
図15に示すように、検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法1500は、以下のステップを含む。
S1501:前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出し、
S1502:前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出し、
S1503:特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。
S1501:前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出し、
S1502:前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出し、
S1503:特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。
ステップS1501では、各参照サンプルの参照サンプル特徴のサンプル分布分散を算出する。すなわち、上記の6つの参照サンプル特徴をサンプル分布分散生成器に入力して、6つの参照サンプルのサンプル分布分散(すなわち図14に示す参照サンプル重み)を取得する。次に、ステップS1502では、6つの参照サンプルのサンプル分布分散について、2つずつ対比する線形分類器を使用して検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離(すなわち、如図14に示す「Distance」)を算出する。次に、ステップS1503では、特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。
いくつかの実施例では、検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離は、ユークリッド距離又はコサイン距離のうちの1つ又は複数として算出することができる。
いくつかの実施例では、softmax分類器又はsigmoid分類器を使用して検出サンプルと各参照サンプルとが同じカテゴリに属する確率を算出することができる。
検出サンプルと参照サンプルが同じカテゴリに属する確率を算出する方法は、上記のトレーニング段階で記載の方法、及び式(3)と式(4)を参照することができるので、ここでは詳細に説明しない。
しかしながら、理解する必要があることは、式(3)と式(4)でコサイン距離を使用して検出サンプル特徴と参照サンプル特徴との特徴距離を表すが、本開示はこれに限定されない。当業者は、ニーズに応じて検出サンプル特徴と参照サンプル特徴との他の距離を算出して両者間の差を表すことができ、他の距離は、ユークリッド距離、アースムーバー(Earth Mover)距離などを含むが、これに限定されない。
図13に戻ると、検出サンプル特徴と各参照サンプル特徴との類似度を取得した(S1303)後、処理をステップS1304まで行う。ステップS1304では、各グループの参照サンプルについて、類似度の平均値を算出し、類似度の平均値が最大になるカテゴリを検出サンプルが属するカテゴリとして決定する。
図14の概略図を例とし、検出サンプル特徴と「疲れ」、「苦しみ」、及び「軽蔑」のこの3つのカテゴリのうちの2つの参照サンプル特徴の2つずつの間の類似度を算出した後、それぞれ「疲れ」、「苦しみ」、及び「軽蔑」のこの3つのカテゴリのうちの各カテゴリについて、2つの類似度の値を平均して、「疲れ」、「苦しみ」、及び「軽蔑」のこの3つのカテゴリのうちの各カテゴリに対する類似度の平均値を取得する。次に、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。
図16に示す動作概略図は、より直感的な方式で図13のステップS1301-S1305、及び図15のステップS1501-S1503の詳細を示す。
図16に示すように、参照サンプルセットは、3つの分類(すなわち、「疲れ」、「苦しみ」、及び「軽蔑」)の合計6つの参照サンプルを含む、検出サンプルはこの3つの分類のうちの1つの分類に属するが、トレーニング段階とは異なり、検出サンプルはラベリングされておらず、すなわちニューラルネットワークは、事前に検出サンプルの真の分類を知らない。参照サンプルセットのうちの6つの参照サンプルを特徴抽出器f(θ)に入力して、3つのグループの参照サンプル特徴を取得することができ、すなわち「疲れ」カテゴリに対応する参照サンプル特徴集{f11(θ),f12(θ)}、「戸惑い」カテゴリに対応する参照サンプル特徴集{f21(θ),f22(θ)}、及び「苦しみ」カテゴリに対応する参照サンプル特徴集{f31(θ),f32(θ)}である。同時に、同じ特徴抽出器f(θ)を使用して検出サンプルの検出サンプル特徴f1(θ)を抽出する。
検出サンプルの分類プロセス中に、検出サンプル特徴f1(θ)について、f1(θ)と上記の6つの参照サンプル特徴との特徴距離をそれぞれ算出して、3つのグループの合計6つの特徴距離{D11,D12}、{D21,D22}、及び{D31,D32}を取得する。いくつかの実施例では、特徴距離を検出サンプル特徴と参照サンプル特徴とのコサイン距離として算出することができる。例えば、上記の式(5)に基づいて検出サンプル特徴と参照サンプル特徴とのコサイン距離を算出することができる。
上記の3つのグループの合計6つの特徴距離を算出した後、各特徴距離に基づいて、それに対応する類似度をそれぞれ算出することができる。例えば、図16は6つの特徴距離から対応する6つの確率値を算出する例を示す。例えば、上記の式(3)又は(4)に基づいてこの6つの確率値P11、P12、…、P32を算出することができる。
なお、本開示は、「類似度」と「あるカテゴリに属する確率」との2つの記述に言及しているが、両者の意味は同等であり、この点は、既にトレーニング段階の方法で詳細に示し、ここで詳細に説明しない。
前述のように検出サンプルと各参照サンプルとの類似度を取得した後、各カテゴリに対して、各カテゴリの類似度の平均値をそれぞれ算出することもできる。例えば、「疲れ」カテゴリの類似度の平均値をP1avgとして算出し、「戸惑い」及び「苦しみ」のカテゴリの類似度の平均値をP2avg及びP3avgとしてそれぞれ算出する。
次に、図13に戻ると、ステップS1305では、類似度の平均値になる最大のカテゴリを検出サンプルが属するカテゴリとして決定する。例えば、図16のp1avg=0.6、p2avg=0.8、p3avg=0であると仮定する場合、検出サンプルと「戸惑い」カテゴリの類似度が最大であることが証明され、ニューラルネットワークは、当該検出サンプルが「戸惑い」カテゴリに属するとマークする。
また、いくつかの実施例では、図13に示すトレーニング方法は、softmax活性化関数又はsigmoid活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が[0,1]の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含むことができる。
つまり、図16でp1avg=0.6、p2avg=0.8、p3avg=0.2が算出された場合、p1avg+p2avg+p3avg≠1である。この場合、活性化関数softmaxを使用してp1avg、p2avg、p3avgの値を正規化して、正規化された類似度の平均値の和が1であるようにすることができる。例えば、正規化されたp1’avg=0.375、p2’avg=0.5、p3’avg=0.125である。この場合、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定することができる。
本開示の検出サンプルと参照サンプルを2つずつ対比して平均を求める方法による利点をより明確に理解するために、図17-18は、本開示により提供される方法と、まず、特徴中心を算出し、次に、類似度を再算出する従来の方法の効果の比較の例を提供する。
図17は、小サンプル分類方法の対応結果の概略図を示す。図18は、図16に示す分類方法の結果に対応する概略図を示す。
例えば、図17に示すように、検出サンプルの実際の分類は「悲しみ」であるべきである。しかしながら、まず、特徴中心を算出し、次に、類似度を再算出する場合、「悲しみ」参照サンプルセットには「頭を抱える」動作に関する参照サンプルが1つしかないため、まず、参照サンプル特徴について平均を求める場合、「頭を抱える」に関連する情報が平滑化されて、ニューラルネットワークが検出サンプルを「驚き」として誤判断するようになる。例えば、検出サンプルと悲しみ特徴中心との類似度は0.23であり、驚き特徴中心との類似度は0.25であり、0.25>0.23であるため、ニューラルネットワークは、検出サンプルを「驚き」として誤判断する。
対照的に、図18では、検出サンプルと悲しみカテゴリの各サンプルの類似度は、それぞれ0.2、0.2、0.2、0.2、0.7であり、平均類似度は0.3であり、検出サンプルと驚き各サンプルの類似度は、それぞれ0.2、0.2、0.2、0.2、0.3であり、平均類似度は、0.22である。0.3>0.22であるため、ニューラルネットワークは、検出サンプルを「悲しみ」として正確に判断する。
以上、図面を組み合わせて、検出サンプル特徴と各参照サンプル特徴を使用して2つずつ対比して、平均を求める分類方法の実施例を説明した。特徴中心を使用する方法と比較して、2つずつ対比して平均を求める方法は、顕著な情報の紛失を防止して、トレーニング後のモデルがより高い精度又は正確率を有することができる。
しかしながら、以上で説明した実施例の分類方法は、顕著な情報を紛失する問題を効果的に防止することができるが、カテゴリ間の差異性には依然としていくつかの不足がある。
上記のクラス間の差が小さすぎる問題を解决するために、いくつかの実施例では、拡大係数を導入して特徴距離を拡大して、分類器の各カテゴリに対する出力確率がより大きい差を有するようにする。
図19は、本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。
いくつかの実施例では、分類方法1300は、検出サンプル特徴と各参照サンプル特徴のサンプル分布分散との特徴距離に第1の係数を乗算して、拡大された特徴距離を取得するステップと、拡大された特徴距離に基づいて、前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、をさらに含むことができる。
例えば、図19に示すように、検出サンプル特徴と各参照サンプル特徴のサンプル分散を2つずつ対比して両者の特徴距離を算出した後、当該特徴距離「Distance」を係数「scale」に乗算して、次に、両者の積を活性化関数に入力して検出サンプルが各分類に属する確率を算出する。
拡大係数を設置してクラス間出力確率差を増加する方法は、トレーニング段階で面7を組み合わせて説明する方法と類似するので、ここでは詳細に説明しない。いくつかの実施例では、検出サンプル特徴と各参照サンプル特徴のサンプル分布分散との特徴距離の理論的な最大値及び最小値に基づいて、当該拡大係数の値の範囲を算出することができる。例えば、上記の式(8)~(11)に基づいて拡大係数の数値範囲を算出することができる。
当該拡大係数を設置することによって、活性化関数の各カテゴリに対する出力確率がより大きい差を有することができ、分類がより容易になることができる。また、上記の拡大係数の算出方法は、拡大係数を手動で調整することによる余分な作業量を効果的に回避することもできる。
以上、図面を組み合わせて、分類のためのニューラルネットワークのトレーニング方法とテスト方法の様々な実施例を説明した。検出サンプル特徴と各参照サンプル特徴を2つずつ対比して平均を求める分類方法によって、特徴中心を使用することによって引き起こされる顕著な情報が平滑化される問題を効果的に解决し、分類の精度を向上させることができる。また、特徴距離を拡大した後に類似度又は確率を求めることによって、カテゴリ間の確率の差を効果的に増加させることができ、分類の精度をさらに向上させることができる。さらに、トレーニング段階では消去サンプルの方法を導入して、ニューラルネットワークが他の分類タスクに関連する共通情報を忘れさせ、共通情報による干渉を回避し、分類の精度をさらに向上させる。
本開示は分類装置をさらに提供する。図20は、本開示の実施例による分類装置2000の例示的なブロック図を示す。
図20に示すように、分類装置2000は、特徴抽出モジュール2001と、類似度取得モジュール2002と、カテゴリ決定モジュール2003とを含む。これらのモジュールは、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組合せによって実現することができる。
いくつかの実施例では、特徴抽出モジュール2001は、検出サンプルのうちの検出サンプル特徴を抽出し、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するように構成される。各グループの参照サンプルは、同じカテゴリを有するべきである。
いくつかの実施例では、類似度取得モジュール2002は、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、各グループの参照サンプルについて、前記類似度の平均値を算出するように構成される。
いくつかの実施例では、カテゴリ決定モジュール2003は、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するように構成される。
なお、本開示の実施例では、分類装置2000は、より多くのモジュールを含むこともでき、上記の特徴抽出モジュール2001、類似度取得モジュール2002、及びカテゴリ決定モジュール2003に限定されない。例えば、分類装置2000は、サンプル選択モジュール(図示せず)をさらに含むことができ、サンプルセットから上記の参照サンプルセットを選択するために用いられる。選択的には、分類装置2000は、通信モジュール(図示せず)を含むこともでき、サーバ又は他の機器と有線又は無線通信を行ってデータを受信又は送信する。また、分類装置2000は、ユーザの入力を受信するための入力/出力モジュールを含むこともできる。
本開示の実施例では、分類装置2000は、上記の分類方法1300及び1500に関する類似する処理を実行することもでき、ここで詳細に説明しない。
本開示は、分類のためのニューラルネットワークのトレーニング装置をさらに提供する。図21は、本開示の実施例によるトレーニング装置2100の例示的なブロック図を示す。
図21に示すように、トレーニング装置2100は、サンプル選択モジュール2101、特徴抽出モジュール2102、類似度取得モジュール2103、予測モジュール2104、及びパラメータ更新モジュール2105を含む。これらのモジュールは、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせによって実現することができる。
いくつかの実施例では、サンプル選択モジュール2101は、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するように構成される。特徴抽出モジュール2102は、検出サンプルの検出サンプル特徴を抽出するし、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出するように構成される。
いくつかの実施例では、類似度取得モジュール2103は、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得し、各参照サンプルのカテゴリについて、前記類似度の平均値を算出するように構成される。
いくつかの実施例では、予測モジュール2104は、前記類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するように構成される。
いくつかの実施例では、パラメータ更新モジュール2105は、第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新するように構成される。
本開示の実施例では、トレーニング装置2100は、上記のトレーニング方法300、500、及び1000に関する類似する処理を実行することもできるので、ここでは詳細に説明しない。
本開示の実施例は、分類のための電子機器をさらに提供する。図22は、本開示の実施例によるトレーニング方法と分類方法を実現できる電子機器2200の例示的なブロック図を示す。
図22に示すように、本実施例に係る電子機器は、プロセッサ2210、記憶部2220、通信部2230、入力/出力部2240、及びディスプレイ部2250を含み、これらの部分は、I/Oインターフェース2260に結合される。
プロセッサ2210は、マイクロプロセッサなどのプログラム制御装置であり、例えば、電子機器にインストールされたプログラムに従って動作する。記憶部2220は、例えば、ROM又はRAMなどの記憶素子である。プロセッサ2210などにより実行されるプログラムが記憶部2220に記憶される。通信部2230は、例えば、無線LANモジュールなどの通信インターフェースである。入力/出力部2240は、例えば、HDMI(登録商標)(HDマルチメディアインターフェース)ポート、USB(ユニバーサルシリアルバス)ポート、AUX(アシスト)ポートなどの入力/出力ポートである。ディスプレイ部2250は、例えば、液晶ディスプレイや有機EL(エレクトロルミネッセンス)ディスプレイなどのディスプレイである。
図22に示す電子機器は、本開示で開示されるトレーニング方法及び分類方法を実現するために用いられる。例えば、本開示の実施例による分類方法は、コンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、非一時的なコンピュータ読み取り可能な媒体に搭載されるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、上記の分類方法を実行するためにプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部2230を介してネットワークからダウンロードおよびインストールされてもよいし、記憶部2220からインストールされてもよい。当該コンピュータプログラムが電子機器によって実行されると、本開示の実施例により提供される分類方法又は限定方法で限定された機能を実行することができる。当該分類方法及びトレーニング方法は、既に上記の図面を組み合わせて詳細に説明したので、ここでは詳細に説明しない。
本開示の実施例は、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。図23は、本開示のトレーニング方法と分類方法を実現するためのコンピュータ読み取り可能な記憶媒体2300の概略図を示す。ここで、コンピュータ読み取り可能な記憶媒体2300にコンピュータプログラム命令2301が記憶されており、ここで、コンピュータプログラム命令2301は、プロセッサによって実行されると、本開示の実施例により提供される分類方法及びトレーニング方法を実行する。
上記の説明において、本発明は、実施例に基づいて説明されている。本実施例は例示的なものにすぎず、本実施例の構成要素と処理の組み合わせを様々な方式で変更することができ、このような変更も本発明の範囲内であることを当業者は理解することができる。
Claims (23)
- 分類方法であって、
検出サンプルの検出サンプル特徴を抽出するステップと、
複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するステップであって、各グループの参照サンプルは、同じカテゴリを有するステップと、
前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップと、
各グループの参照サンプルについて、前記類似度の平均値を算出するステップと、
前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含む、
ことを特徴とする、分類方法。 - 前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップは、
前記複数の参照サンプル特徴のうちの各参照サンプル特徴のサンプル分布分散を算出するステップと、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、
前記特徴距離に基づいて、前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、を含む、
ことを特徴とする、請求項1に記載の分類方法。 - 前記特徴距離は、ユークリッド距離及びコサイン距離のうちの1つ又は複数を含む、
ことを特徴とする、請求項2に記載の分類方法。 - 前記分類方法は、
softmax活性化関数又はsigmoid活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が[0,1]の範囲内になるようにするステップと、
正規化された類似度の平均値が最大になるグループのカテゴリを、前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む、
ことを特徴とする、請求項1に記載の分類方法。 - 前記分類方法は、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離に第1の係数を乗算して、拡大された特徴距離を取得するステップと、
前記拡大された特徴距離に基づいて、前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、をさらに含む、
ことを特徴とする、請求項2に記載の分類方法。 - 前記分類方法は、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離の理論的な最大値及び最小値に基づいて、前記第1の係数の値の範囲を算出するステップをさらに含む、
ことを特徴とする、請求項5に記載の分類方法。 - 前記複数グループの参照サンプルは、少なくとも2つグループの参照サンプルを含み、各グループの参照サンプルは、少なくとも2つの参照サンプルを含む、
ことを特徴とする、請求項1から6のいずれかに記載の分類方法。 - 分類のためのニューラルネットワークのトレーニング方法であって、
トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップと、
検出サンプルの検出サンプル特徴を抽出するステップと、
参照サンプルセットうちの各参照サンプルの参照サンプル特徴を抽出するステップと、
前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップと、
類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するステップと、
第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、を含む、
ことを特徴とする、分類のためのニューラルネットワークのトレーニング方法。 - 前記トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、
前記トレーニングデータセットからN個のカテゴリを選択し、前記N個のカテゴリの各カテゴリからK個のトレーニングサンプルを選択して前記参照サンプルセットを構成するステップと、
前記N個のカテゴリから前記参照サンプルセットと重複しないトレーニングサンプルを検出サンプルとして選択するステップと、を含む、
ことを特徴とする、請求項8に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップは、
前記参照サンプルセットうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出するステップと、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、
前記特徴距離に基づいて前記検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と各参照サンプル特徴との類似度として算出するステップと、を含む、
ことを特徴とする、請求項8に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記第1の損失関数は、バイナリ交差エントロピー損失関数であり、前記第1の損失関数の第1の損失値は、前記検出サンプルの実際カテゴリと前記検出サンプルの予測カテゴリとの差を示す、
ことを特徴とする、請求項8に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記特徴距離は、ユークリッド距離及びコサイン距離のうちの1つ又は複数を含む、
ことを特徴とする、請求項8に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記トレーニング方法は、
softmax活性化関数又はsigmoid活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が[0,1]の範囲内になるようにするステップと、
正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む、
ことを特徴とする、請求項8に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記トレーニング方法は、
前記第1の損失関数の第1の損失値が第1の閾値より大きい場合、前記ニューラルネットワークに対して反復的にトレーニングするステップをさらに含む、
ことを特徴とする、請求項11から13のいずれかに記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記トレーニング方法は、
前記トレーニングデータセットから消去サンプルを選択するステップと、
前記消去サンプルの消去サンプル特徴を抽出するステップと、
前記検出サンプル特徴と前記消去サンプル特徴との第1の特徴距離を取得するステップと、
前記検出サンプルと同じカテゴリに属するK個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得するステップと、
前記検出サンプル特徴と前記参照サンプル特徴中心との第2の特徴距離を取得するステップと、
前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、をさらに含む、
ことを特徴とする、請求項8に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記検出サンプルと前記K個の参照サンプルとは同じ第1の属性を有し、
前記検出サンプルと前記消去サンプルとは同じ第2の属性を有し、
前記第1の属性は前記第2の属性とは異なる、
ことを特徴とする、請求項15に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記第2の損失関数は、コサイン距離損失関数であり、
前記第1の特徴距離は、前記検出サンプル特徴と前記消去サンプル特徴とのコサイン距離に対応し、
前記第2の特徴距離は、前記検出サンプル特徴と前記参照サンプル特徴中心とのコサイン特徴距離に対応する、
ことを特徴とする、請求項15に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、
前記第1の特徴距離が第2の閾値より大きく、且つ前記第2の特徴距離が第3の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む、
ことを特徴とする、請求項15に記載の分類のためのニューラルネットワークのトレーニング方法。 - 前記第1の特徴距離と前記第2の特徴距離とに基づいて、第2の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、
前記第1の特徴距離が前記第2の閾値とオフセットとの合計より大きく、且つ前記第2の特徴距離が前記第3の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む、
ことを特徴とする、請求項18に記載の分類のためのニューラルネットワークのトレーニング方法。 - 分類装置であって、
特徴抽出モジュールと、類似度取得モジュールと、カテゴリ決定モジュールと、を含み、
当該特徴抽出モジュールは、
検出サンプルの検出サンプル特徴を抽出し、
複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するように構成され、各グループの参照サンプルは、同じカテゴリを有し、
当該類似度取得モジュールは、
前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、
各グループの参照サンプルについて、前記類似度の平均値を算出するように構成され、
当該カテゴリ決定モジュールは、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するように構成される、
ことを特徴とする分類装置。 - 分類のためのニューラルネットワークのトレーニング装置であって、
トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するように構成されるサンプル選択モジュールと、
検出サンプルの検出サンプル特徴を抽出し、参照サンプルセットうちの各参照サンプルの参照サンプル特徴を抽出するように構成される特徴抽出モジュールと、
前記検出サンプル特徴と各参照サンプル特徴との類似度を取得し、各参照サンプルのカテゴリについて、前記類似度の平均値を算出するように構成される類似度取得モジュールと、
前記類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するように構成される予測モジュールと、
第1の損失関数を使用して前記ニューラルネットワークのパラメータを更新するように構成されるパラメータ更新モジュールと、を含む、
ことを特徴とするトレーニング装置。 - 電子機器であって、
プロセッサと、
1つ又は複数のコンピュータプログラムモジュールが記憶されているメモリと、を含み、
前記1つ又は複数のコンピュータプログラムモジュールは、前記プロセッサによって実行される時、請求項1~7のいずれかに記載の分類方法と、請求項8~19のいずれかに記載の分類のためのニューラルネットワークのトレーニング方法を実行するように構成される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令がプロセッサによって実行される時、請求項1~7のいずれかに記載の分類方法と、請求項8~19のいずれかに記載の分類のためのニューラルネットワークのトレーニング方法が実行される、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110678054.3A CN115496932A (zh) | 2021-06-18 | 2021-06-18 | 基于神经网络的分类方法和分类装置 |
CN202110678054.3 | 2021-06-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023001086A true JP2023001086A (ja) | 2023-01-04 |
Family
ID=84464867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022097731A Pending JP2023001086A (ja) | 2021-06-18 | 2022-06-17 | ニューラルネットワークに基づく分類方法、及び分類装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023001086A (ja) |
CN (1) | CN115496932A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115737102A (zh) * | 2023-01-10 | 2023-03-07 | 杭州糖吉医疗科技有限公司 | 激光切割装配式胃转流支架及其制备方法 |
CN118114886A (zh) * | 2024-04-28 | 2024-05-31 | 广东精工智能系统有限公司 | 一种基于大数据的产品生产制造信息管理系统及方法 |
-
2021
- 2021-06-18 CN CN202110678054.3A patent/CN115496932A/zh active Pending
-
2022
- 2022-06-17 JP JP2022097731A patent/JP2023001086A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115737102A (zh) * | 2023-01-10 | 2023-03-07 | 杭州糖吉医疗科技有限公司 | 激光切割装配式胃转流支架及其制备方法 |
CN118114886A (zh) * | 2024-04-28 | 2024-05-31 | 广东精工智能系统有限公司 | 一种基于大数据的产品生产制造信息管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115496932A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | A subspace co-training framework for multi-view clustering | |
Zheng et al. | Dense semantic image segmentation with objects and attributes | |
Mita et al. | Discriminative feature co-occurrence selection for object detection | |
WO2019158015A1 (zh) | 样本获取方法、目标检测模型生成方法、目标检测方法 | |
CN112149717B (zh) | 基于置信度加权的图神经网络训练方法及装置 | |
JP2019509551A (ja) | Nペア損失による距離計量学習の改善 | |
US20180157892A1 (en) | Eye detection method and apparatus | |
WO2015173435A1 (en) | Method for predicting a phenotype from a genotype | |
EP3674974A1 (en) | Apparatus and method with user verification | |
US20230282216A1 (en) | Authentication method and apparatus with transformation model | |
Robert et al. | Mouth features extraction for emotion classification | |
WO2020108808A1 (en) | Method and system for classification of data | |
Wu et al. | A hierarchical probabilistic model for facial feature detection | |
JP2023001086A (ja) | ニューラルネットワークに基づく分類方法、及び分類装置 | |
CN116416334A (zh) | 一种基于原型的嵌入网络的场景图生成方法 | |
Jenuwine et al. | Lung nodule detection from CT scans using 3D convolutional neural networks without candidate selection | |
US20200388286A1 (en) | Method and device with data recognition | |
Syam et al. | An effective similarity measure via genetic algorithm for Content-Based Image Retrieval with extensive features | |
Zhang et al. | Multi-pose facial expression recognition using transformed dirichlet process | |
CN112132169B (zh) | 信息处理装置和信息处理方法 | |
Mathews et al. | “Am I your sibling?” Inferring kinship cues from facial image pairs | |
CN114168780A (zh) | 多模态数据处理方法、电子设备及存储介质 | |
Vijayarani et al. | An efficient algorithm for facial image classification | |
Fatima et al. | Nuclear spatial and spectral features based evolutionary method for meningioma subtypes classification in histopathology | |
Mary et al. | An optimized feature selection CBIR technique using ANN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230928 |