JP2023001086A

JP2023001086A - ニューラルネットワークに基づく分類方法、及び分類装置

Info

Publication number: JP2023001086A
Application number: JP2022097731A
Authority: JP
Inventors: シャオリャン; Liang Shao; ウェイリュウ; Wei Liu; ウェンユウ; Wen Yu; アンシンリ; An-Shin Lee; 一成中村; Kazunari Nakamura; シーホングオ; Xihong Guo
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2021-06-18
Filing date: 2022-06-17
Publication date: 2023-01-04
Also published as: CN115496932A

Abstract

【課題】分類方法を提供し、少量のラベリングサンプルのみがサポートされている場合でも、高精度で検出サンプルを正確に分類する。【解決手段】分類方法は、検出サンプルの検出サンプル特徴を抽出するステップと、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するステップであって、各グループの参照サンプルは、同じカテゴリを有するステップと、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップと、各グループの参照サンプルについて、前記類似度の平均値を算出するステップと、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含む。【選択図】図３

Description

本開示は、コンピュータの分野に関し、特に、ニューラルネットワークに基づく分類方法、及び分類装置に関する。

近年、ディープラーニングの急速な発展に伴い、コンピュータビジョンの分野の多くのタスクは、いずれもニューラルネットワークを通じて効果的に処理することができる。ニューラルネットワークに基づく分類方法は、国内外の研究者が常に注目しているホットな研究問題である。一般的に、ニューラルネットワークに基づく分類方法は、大量のトレーニングデータを用いてモデルを学習させる必要があり、比較的正確な分類モデルを取得することができる。

しかしながら、多くの用途シナリオでは、医療データ、携帯電話のユーザが手動でラベリングしたデータなど、大量のトレーニングデータを取得することは非常に高価であり、困難であり、さらに不可能である。例えば、画像およびビデオの表情分類の用途シナリオでは、個別の表情(例えば、疲れ、戸惑い、苦しみなど)は、少ないサンプルしか持たない可能性がある。また、医療補助診断の応用シナリオでは、例えば、希少疾患のサンプル数が比較的入手しにくい。また、疑わしいターゲット識別の用途シナリオでは、例えば、ビデオにおけるあるフレームにおいて疑わしいターゲットをラベリングするには、この疑わしいターゲットに関する大量のサンプルを期待することも相対的に困難である。少量のラベル付きデータのみを用いて小サンプル分類タスクを実行できるか否かは非常に重要な課題であり、学界でも産業界でも注目されている。

本開示は、上記の問題を考慮して設計されたものである。本開示の目的は、分類方法を提供し、少量のラベリングサンプルのみがサポートされている場合でも、高精度で検出サンプルを正確に分類することができる。本開示の基本的な考え方は、まず、大量のラベリングデータを有する類似するタスクを使用してモデルをトレーニングして、モデルが十分な先行知識を取得するようにし、次に、テストに少量のラベリングデータを参照サンプルセットとして導入して、先行知識を有するモデルを使用して検出サンプルのカテゴリを予測する。

本開示の一態様は、分類方法を提供し、検出サンプルの検出サンプル特徴を抽出するステップと、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するステップであって、各グループの参照サンプルは、同じカテゴリを有するステップと、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップと、各グループの参照サンプルについて、前記類似度の平均値を算出するステップと、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含む。

いくつかの実施例では、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップは、前記複数の参照サンプル特徴のうちの各参照サンプル特徴のサンプル分布分散を算出するステップと、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、前記特徴距離に基づいて前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、を含む。

いくつかの実施例では、前記特徴距離は、ユークリッド距離とコサイン距離のうちの１つ又は複数を含む。

いくつかの実施例では、当該分類方法は、ｓｏｆｔｍａｘ活性化関数又はｓｉｇｍｏｉｄ活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が［０，１］の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む。

いくつかの実施例では、当該分類方法は、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離に第１の係数を乗算して、拡大された特徴距離を取得するステップと、前記拡大された特徴距離に基づいて前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、をさらに含む。

いくつかの実施例では、当該分類方法は、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離の理論的な最大値及び最小値に基づいて、前記第１の係数の値の範囲を算出するステップをさらに含む。

いくつかの実施例では、前記複数グループの参照サンプルは、少なくとも２つグループの参照サンプルを含み、各グループの参照サンプルは、少なくとも２つの参照サンプルを含む。

本開示の別の態様は、分類のためのニューラルネットワークのトレーニング方法を提供し、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップと、検出サンプルの検出サンプル特徴を抽出するステップと、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出するステップと、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップと、類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するステップと、第１の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、を含む。

いくつかの実施例では、前記トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、前記トレーニングデータセットからＮ個のカテゴリを選択し、前記Ｎ個のカテゴリの各カテゴリからＫ個のトレーニングサンプルを選択して前記参照サンプルセットを構成するステップと、前記Ｎ個のカテゴリから前記参照サンプルセットと重複しないトレーニングサンプルを検出サンプルとして選択するステップと、を含む。

いくつかの実施例では、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップは、前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出するステップと、前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、前記特徴距離に基づいて前記検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と各参照サンプル特徴との類似度として算出するステップと、を含む。

いくつかの実施例では、前記第１の損失関数は、バイナリ交差エントロピー損失関数であり、前記第１の損失関数の第１の損失値は、前記検出サンプルの実際カテゴリと前記検出サンプルの予測カテゴリとの差を示す。

いくつかの実施例では、前記分類のためのニューラルネットワークのトレーニング方法は、ｓｏｆｔｍａｘ活性化関数又はｓｉｇｍｏｉｄ活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が［０，１］の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む。

いくつかの実施例では、前記分類のためのニューラルネットワークのトレーニング方法は、前記第１の損失関数の第１の損失値が第１の閾値より大きい場合、前記ニューラルネットワークに対して反復的にトレーニングするステップをさらに含む。

いくつかの実施例では、前記分類のためのニューラルネットワークのトレーニング方法は、前記トレーニングデータセットから消去サンプルを選択するステップと、前記消去サンプルの消去サンプル特徴を抽出するステップと、前記検出サンプル特徴と前記消去サンプル特徴との第１の特徴距離を取得するステップと、前記検出サンプルと同じカテゴリに属するＫ個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得するステップと、前記検出サンプル特徴と前記参照サンプル特徴中心との第２の特徴距離を取得するステップと、前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、をさらに含む。

いくつかの実施例では、前記検出サンプルと前記Ｋ個の参照サンプルとは同じ第１の属性を有し、前記検出サンプルと前記消去サンプルとは同じ第２の属性を有し、前記第１の属性は前記第２の属性とは異なる。

いくつかの実施例では、前記第２の損失関数は、コサイン距離損失関数であり、前記第１の特徴距離は、前記検出サンプル特徴と前記消去サンプル特徴とのコサイン距離に対応し、前記第２の特徴距離は、前記検出サンプル特徴と前記参照サンプル特徴中心とのコサイン特徴距離に対応する。

いくつかの実施例では、前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、前記第１の特徴距離が第２の閾値より大きく、前記第２の特徴距離が第３の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む。

いくつかの実施例では、前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、前記第１の特徴距離が前記第２の閾値とオフセットとの合計より大きく、前記第２の特徴距離が前記第３の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む。

本開示の別の態様は、分類装置を提供し、検出サンプルのうちの検出サンプル特徴を抽出し、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するように構成される特徴抽出モジュールであって、各グループの参照サンプルは、同じカテゴリを有する特徴抽出モジュールと、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、各グループの参照サンプルについて、前記類似度の平均値を算出するように構成される類似度取得モジュールと、を含む。当該分類装置は、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するように構成されるカテゴリ決定モジュールをさらに含む。

本開示の別の態様は、分類のためのニューラルネットワークのトレーニング装置を提供し、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するように構成されるサンプル選択モジュールと、検出サンプルの検出サンプル特徴を抽出し、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出するように構成される特徴抽出モジュールと、を含む。当該トレーニング装置は、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得し、各参照サンプルのカテゴリについて、前記類似度の平均値を算出するように構成される類似度取得モジュールと、をさらに含む。当該トレーニング装置は、前記類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するように構成される予測モジュールをさらに含む。当該トレーニング装置は、第１の損失関数を使用して前記ニューラルネットワークのパラメータを更新するように構成されるパラメータ更新モジュールをさらに含む。

本開示のさらに別の態様は、電子機器を提供し、プロセッサと、１つ又は複数のコンピュータプログラムモジュールが記憶されているメモリと、を含み、前記１つ又は複数のコンピュータプログラムモジュールは、前記プロセッサによって実行される時、本開示で開示される分類方法、及び本開示で開示される分類のためのニューラルネットワークのトレーニング方法を実行する。

本開示のさらに別の態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令がプロセッサによって実行される時、本開示で開示される分類方法、及び本開示で開示される分類のためのニューラルネットワークのトレーニング方法を実行する。

サンプル分類方法の全体的な構想の概略図を示す。サンプル分類のためのニューラルネットワークモデルの概略図を示す。サンプル分類方法の例示的なフローチャートを示す。図２Ａ－２Ｂに示すモデルとサンプル分類方法の結果の概略図を示す。本開示の実施例による分類のためのニューラルネットワークのトレーニング方法の例示的なフローチャートを示す。本開示の実施例による分類のためのニューラルネットワークモデルの概略図を示す。本開示の実施例による検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法の例示的なフローチャートを示す。本開示の実施例による分類のためのニューラルネットワークのトレーニング方法の動作概略図を示す。本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。図７に示す分類のためのニューラルネットワークモデルの結果に対応する概略図を示す。サンプル分類方法の対応結果の概略図を示す。本開示の実施例による分類のためのニューラルネットワークのトレーニング方法の別の例示的なフローチャートを示す。本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。図１１に示すネットワークモデルの結果に対応する概略図を示す。本開示の実施例による分類方法の例示的なフローチャートを示す。本開示の実施例によるネットワークモデルの概略図を示す。本開示の実施例による検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法の例示的なフローチャートを示す。本開示の実施例による分類方法の動作概略図を示す。小サンプル分類方法の対応結果の概略図を示す。図１６に示す分類方法の結果に対応する概略図を示す。本開示の実施例によるネットワークモデルの別の概略図を示す。本開示の実施例による分類装置の例示的なブロック図を示す。本開示の実施例によるトレーニング装置の例示的なブロック図を示す。本開示の実施例によるトレーニング方法と分類方法を実現する電子機器の例示的なブロック図を示す。本開示のトレーニング方法と分類方法を実現するためのコンピュータ読み取り可能な記憶媒体の概略図を示す。

以下、図面を参照して本開示の実施例をより詳細に説明する。図面には、本開示のいくつかの実施例が示されているが、本開示は、ここで説明した実施例に限定されるものではなく、逆に、本開示をより明確かつ完全に理解するために提供されるものであることを理解されたい。本開示の図面および実施例は、例示的な作用にのみ使用され、本開示の保護範囲を制限するものではないことを理解されたい。

本開示の方法の実施方式に記載された各ステップは、異なる順序で実行されてもよく、及び／又は並行して実行されてもよいことを理解されたい。さらに、方法の実施例は、他のステップを含むことができ、及び／又はいくつかのステップを省略することができる。

従来の小サンプル分類問題は、一般的には、Ｎ分類Ｋサンプル（「Ｎ－ｗａｙＫ－ｓｈｏｔ」とも呼ばれる）問題としてモデリングすることができる。図１はサンプル分類方法の全体的な構想の概略図を示す。

一般的に、Ｎ－ｗａｙＫ－ｓｈｏｔ問題は、トレーニング段階との第１段階と、テスト段階との第２段階と、の２つの段階にモデリングすることができる。

トレーニング段階について、１つの従来の大型データセット（図１に示す７つの表情カテゴリを含むデータセット）が存在すると仮定すると、当該大型データセットは、各カテゴリに対して幾千幾万のラベリングデータを有し、当該大型データセットをメタデータセットとすることができる。

まず、当該メタデータセットからＮ個のカテゴリをランダムに抽出して、モデルをトレーニングするためのカテゴリとする。例えば、図１に示す概略図では、メタデータセットから３つの表情カテゴリ（すなわち、Ｎ＝３、カテゴリは、「怒り」と、「軽蔑」と、「嫌悪」とであり、）をランダムに抽出する。次に、このＮ個の表情カテゴリからＫ個のサンプルをそれぞれ抽出してＮｘＫサイズの参照サンプルセット（例えば、図１では、Ｋ＝２）を構成する。同時に、このＮ個の表情カテゴリからＭ個のサンプルをそれぞれ抽出して、ＮｘＭサイズの検出サンプルセット（例えば、図１では、Ｍ＝１）を構成する。なお、検出サンプルセットに含まれるカテゴリは、参照サンプルセットに含まれるカテゴリと同じであるべきであるが、検出サンプルセットのうちのＮｘＭ個のサンプルは参照サンプルセットのうちのＮｘＫ個のサンプルと重複すべきでない。

メタデータセットから上記の参照サンプルセットと検出サンプルセットをそれぞれ抽出した後、抽出された参照サンプルセットと検出サンプルセットを分類のためのモデルに同時に入力して、当該モデルをトレーニングする。なお、当該トレーニングプロセスには、異なる参照サンプルセットと検出サンプルセットに対する大量の反復処理を含む。トレーニングを経たモデルは、大量のラベリングデータを有する類似するタスクの先行知識を取得したことに相当する。当該モデルを使用して、少量のラベリングデータのみを有するターゲットタスクをテストする。少量のラベリングデータに対する当該ターゲットタスクをテスト段階としてモデリングする。

テスト段階について、一連の検出対象データをテスト段階の検出サンプルセットとして構築し、同時に、当該検出サンプルセットのうちの各検出対象データのカテゴリに対応する少量のラベリングデータをテスト段階の参照サンプルセットとして構築すると仮定する。図１に示す例では、例えば、３つの表情データを検出サンプルセットとして構成し、この３つの表情データのカテゴリに対応する３ｘ２サイズのラベリングデータを参照サンプルセットとして構築する。検出サンプルセットのうちの各表情データについて、それは参照サンプルセットのうちの３つの表情カテゴリのうちの１つに属することは分かるが、具体的には、どの表情カテゴリに属することは分からないため、トレーニング済みのモデルが前トレーニングされた先行知識に基づいて対応する表情カテゴリとしてラベリングする必要がある。なお、テスト段階に対応する表情カテゴリ（例えば、疲れ、戸惑い、又は苦しみ）は、トレーニング段階のメタデータセットのうちの表情カテゴリ（例えば、怒り、軽蔑、嫌悪、恐怖、喜び、悲しみ、及び驚き）と異なり、このことがトレーニングタスクを「同じタスク」ではなく「類似するタスク」と呼ぶ理由である。

その後、テスト段階の検出サンプルセットと参照サンプルセットをトレーニング後のモデルに入力し、モデルは、前のトレーニング知識に基づいて検出サンプルセットのうちのサンプル又はデータを対応するカテゴリとしてマークし、すなわち検出サンプルに対する分類タスクを完了する。

以上、小サンプル分類方法の全体的な構想と大まかなステップを簡単に説明した。なお、上記の方法では、「顔の表情」この属性に対して当該小サンプル分類方法が説明されているが、これは単なる例示であり、限定ではない。当業者は、ニーズに応じて、上記の「顔の表情」タスクを、身体動作認識、医学画像疾患診断、車両認識、及び、他の類似の小サンプル分類タスクを含むがこれらに限定しない他の用途シナリオでの類似するタスクに置き換えることができる。また、さらに理解する必要があることは、上記の「メタデータセット」について、７つの表情カテゴリの例のみを挙げられているが、理解する必要があることは、実際の用途では、当該メタデータセットは、７よりもはるかに大きい分類と、各分類についてより多くの例とを有することができ、以上は、Ｎ－ｗａｙＫ－ｓｈｏｔの例を３－ｗａｙ２－ｓｈｏｔとしたのは、単なる簡単に説明するためであり、本開示の限定と見なされるべきではない。

以下では、図２Ａ－２Ｃを組み合わせてサンプル分類問題に対する例示的な解决方法を説明する。図２Ａはサンプル分類のためのニューラルネットワークモデルの概略図を示す。図２Ｂはサンプル分類方法の例示的なフローチャートを示す。図２Ｃは図２Ａ－２Ｂに示すモデルとサンプル分類方法の結果の概略図を示す。

図２Ａ－２Ｂに示すフローチャートは図１に示すトレーニング段階に対応する。しかし、理解する必要があることは、本開示のモデルについて、トレーニング段階とテスト段階の差異点は、入力サンプルが異なることと、バックプロパゲーション法を使用してモデルを反復的に更新して最適化するか否かにあり、トレーニング段階とテスト段階のコアアルゴリズムは、基本的に同じである。簡単にするために、図２Ａ－２Ｂに示す例をトレーニング段階のステップフローと見なし、当業者はニーズに応じてテスト段階に対応すると見なすこともでき、本開示はこれについて限定しない。

図２Ａに示すように、参照サンプルセットが、怒りと、軽蔑と、嫌悪との３つの表情カテゴリを含み、各表情カテゴリが当該カテゴリに属する５つのサンプル（すなわち、３－ｗａｙ５－ｓｈｏｔ）を含むと仮定する。参照サンプルセットのうちのこの１５の参照サンプル（簡単にするために、図２Ａには各カテゴリの１つの参照サンプルのみを示す）を特徴抽出器ｆ（θ）に入力し、同時に１つの検出サンプルを特徴抽出器ｆ（θ）に入力して、１５の参照サンプル特徴と１つの検出サンプル特徴をそれぞれ取得する。いくつかの実施例では、検出サンプル特徴と各カテゴリの参照サンプル特徴との特徴距離を算出するために、まず、各カテゴリの参照サンプル特徴に対して平均プーリングを行い、次に、当該カテゴリの参照サンプル中心又は特徴中心を算出して、各カテゴリの参照サンプル中心（例えば、この例では、「怒り」と、「軽蔑」と、「嫌悪」との３つの参照サンプル中心を取得する）を取得した後、検出サンプル特徴と各参照サンプル中心の距離を算出し、次に、検出サンプル特徴と各カテゴリの参照サンプル中心の距離に基づいて、２つずつ対比する線形分類器を使用して検出サンプルと各カテゴリの類似度を算出して、検出サンプルを分類し、次に、クロスエントロピー損失関数を使用してモデルのパラメータを更新する。

参照サンプル中心（又は特徴中心）を算出するこの方法は、精度の面で限られている。例えば、図２Ｂに示すように、特徴中心を算出するプロセスでは、各カテゴリに対して、５つの参照サンプル特徴（ｆ１、ｆ２、…、ｆ５）を抽出し、次に、５つの参照サンプル特徴（ｆ１、ｆ２、…、ｆ５）に対して平均プーリングを行って各カテゴリの特徴中心Ｃを取得する。各カテゴリの特徴中心を算出する方法は、以下の式（１）で表すことができ、

その中、Ｃ_ｎは、Ｎ個のカテゴリのうちのＮ番目のカテゴリの特徴中心を表し、ｆ_θは、特徴抽出関数を表し、ｆ_θ（ｘ_i）は、Ｎ番目のカテゴリのうちのｉ番目のサンプルの参照サンプル特徴を表し、その中、ＮとＫは、上記のＮ－ｗａｙＫ－ｓｈｏｔのＮ及びＫにそれぞれ対応し、その具体的な意味はここで詳細に説明しない。

特徴中心を算出する方式は、式（１）に示す線形平均方法であるため、参照サンプル特徴のいくつかの顕著な情報が平滑化されて、特徴中心の情報損失が発生し、モデルの分類能力が低下する。

例えば、図２Ｂに示す例では、それぞれ「怒り」と、「軽蔑」と、「嫌悪」とについて特徴中心を算出するため、その中の「嫌悪」表情カテゴリの特徴中心の算出プロセスでは、例えば、１番目の参照サンプルの「眉をひそめる」特徴が十分に顕著ではない場合、他の４つのサンプルと線形平均を行うことによって「眉をひそめる」の情報が平滑化され、類似度算出結果において、検出サンプルの特徴Ｑが「怒り」カテゴリの特徴中心に近いため、検出サンプルは「怒り」カテゴリに属すると誤判断され、検出サンプルの実際カテゴリは「嫌悪」であるべきである。これは検出サンプルの誤判断になる。

いくつかの実施例では、以下の式（２）で検出サンプルｘｊがカテゴリｎに属する確率（又は検出サンプルと参照サンプルとの類似度になる）を算出することができ、

ここで、Ｃ_ｎは、Ｎ個のカテゴリのうちのＮ番目のカテゴリの特徴中心を表し、<.，.>は、２つの要素間のコサイン距離を表す。

図２Ｃは、図２Ａ－２Ｂに示すモデルとサンプル分類方法の線形平均の結果の概略図を示す。

図２Ｃに示すように、上記の「嫌悪」カテゴリについて、特徴１～特徴５が「嫌悪」カテゴリの５つの参照サンプル特徴（ｆ１、ｆ２、…、ｆ５）にそれぞれ対応し、特徴１～特徴５の第２の次元（横座標が「２」である）が「眉をひそめる」特徴を表すと仮定する。この場合、特徴に対応する数字が大きいほど顕著にならず、数字が小さいほど特徴が顕著になる場合、１番目の参照サンプルについて、その特徴１の第２の次元の数値は１６であり、他の参照サンプルの特徴２～特徴４に比較して、当該第２の次元に対応する「眉をひそめる」特徴が十分に顕著ではなく、他の４つのサンプルと線形平均を行うことによって「眉をひそめる」の情報が平滑化され、すなわち、図２Ｃに示す「平均特徴」の第２の次元の数値は高くなる。前述のように、「眉をひそめる」の情報が平滑化されるため、類似度算出結果において誤判断を生じやすくなる。

上記の問題を解决するために、本開示は、特徴中心を算出せず、検出サンプル特徴とすべての参照サンプル特徴との間で２つずつの特徴距離を算出する方法を提供して、情報の平滑化と重要な特徴の紛失を回避することによって、分類の精度を向上させる。

上記のように、通常、小サンプル分類方法をそれぞれトレーニング段階とテスト段階としてモデリングし、以下はトレーニング段階から開始して、本開示の小サンプル分類方法の様々な実施例を説明する。

図３は本開示の実施例による分類のためのニューラルネットワークのトレーニング方法３００の例示的なフローチャートを示す。図４は本開示の実施例による分類のためのニューラルネットワークモデルの概略図を示す。

図３に示すように、トレーニング方法３００は、以下のステップを含む。
Ｓ３０１：トレーニングデータセットから参照サンプルセットと検出サンプルとを選択し、
Ｓ３０２：検出サンプルの検出サンプル特徴を抽出し、
Ｓ３０３：参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出し、
Ｓ３０４：検出サンプル特徴と各参照サンプル特徴との類似度を取得し、
Ｓ３０５：類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定し、
Ｓ３０６：第１の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。

ステップＳ３０１では、まず、トレーニングデータセットからニューラルネットワークをトレーニングするための参照サンプルセットと検出サンプルとを選択する。本実施例では、トレーニングデータセットは、上記の図１に記載のメタデータセットを組み合わせたものに類似し、当該トレーニングデータセットは、ＮｘＫ個より大きいトレーニングサンプルデータを含む。トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、まずトレーニングデータセットからＮ個のカテゴリを選択し、前記Ｎ個のカテゴリの各カテゴリからＫ個のトレーニングサンプルを選択して参照サンプルセットを構成するステップと、前記Ｎ個のカテゴリから前記参照サンプルセットと重複しないトレーニングサンプルを検出サンプルとして選択するステップと、を含む。

例えば、図４に示すように、トレーニングデータセットから「怒り」、「軽蔑」、「嫌悪」の３つのカテゴリを選択し、この３つのカテゴリから５つのサンプルをそれぞれ選択して参照サンプルセットを構成する。次に、この３つのカテゴリのうちの１つのカテゴリから参照サンプルと重複しない１つのサンプルを検出サンプル（例えば、図４に示す「嫌悪」カテゴリのサンプル）として選択する。

なお、本実施例では１つの検出サンプルの例が示されているが、これは説明の便宜のためだけである。実際のトレーニングプロセスでは、絶えず循環して反復してニューラルネットワークのパラメータを更新する必要があるため、大量の検出サンプル及びそれに対応する参照サンプル集合が必要である。

選択可能には、ステップＳ３０１では、トレーニングデータセットから選択された検出サンプルは、１つの検出サンプルであってもよく、複数の検出サンプルの集合であってもよい。検出サンプルが複数の検出サンプルの集合である場合、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、まず、トレーニングデータセットからＮ個のカテゴリを選択し、前記Ｎ個のカテゴリの各カテゴリからＫ個のトレーニングサンプルを選択して参照サンプルセットを構成するステップと、前記Ｎ個のカテゴリから前記参照サンプルセットと重複しない複数のトレーニングサンプルを検出サンプルセットとして選択するステップと、を含む。複数のトレーニングサンプルを検出サンプルセットとして選択する場合、後続の処理では、当該Ｎ個の特定のカテゴリに対する検出サンプルのトレーニングがすべて完了するまで、検出サンプルセットから１つの検出サンプルを順次に取得して毎回のトレーニングされた入力データとすることができ、次に、トレーニングデータセットから他のＮ個の特定のカテゴリを再選択して類似するトレーニングを行う。

例えば、図６は本開示の実施例による分類のためのニューラルネットワークのトレーニング方法の動作概略図を示す。図６に示す例では、検出サンプルは、単一の画像ではなく、それぞれ上記のＮ個のカテゴリ（例えば、怒り、軽蔑、嫌悪）から各１つのサンプルを選択して構成された検出サンプルセットである。図６に示す例では、例えば、まず、検出サンプルセットのうちの１番目のサンプルに対して上記のステップＳ３０２－Ｓ３０７に示す処理を実行し、１番目のサンプルの予測結果を使用してニューラルネットワークのパラメータを更新し、次に、２番目の検出サンプル、及び３番目の検出サンプルを順次に使用してニューラルネットワークに対して類似するトレーニングを行うことができる。

ステップＳ３０２では、検出サンプルの検出サンプル特徴を抽出し、ステップＳ３０３では、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出する。図４に示すように、同一の特徴抽出器ｆ（θ）を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴を抽出することができ、ここで、抽出された参照サンプル特徴と検出サンプル特徴は、多次元特徴ベクトル（例えば、５１２次元）であってもよい。つまり、図４に示す例について、抽出された参照サンプル特徴は、３つのカテゴリに対応する１５の多次元特徴ベクトルを含み、抽出された検出サンプル特徴は、検出サンプルに対応する１つの多次元特徴ベクトルを含む。

なお、図４では同じ特徴抽出器ｆ（θ）を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴とを抽出する方法を示すが、実際のニーズに応じて、参照サンプル特徴と検出サンプル特徴の抽出について異なる特徴抽出器を適用することができる。

次に、ステップＳ３０４では、前記検出サンプル特徴と複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得する。図５は本開示の実施例による検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法５００の例示的なフローチャートを示す。図５に示すフローチャートの各ステップは、図３のステップ３０４の細分化ステップと見なすことができる。

図５に示すように、検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法５００は、以下のＳ５０１～Ｓ５０３を含み、
Ｓ５０１：前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出し、
Ｓ５０２：前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出し、
Ｓ５０３：特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。

ステップＳ５０１では、各参照サンプルの参照サンプル特徴のサンプル分布分散（ｖａｒｉａｎｃｅ）を算出する。すなわち、上記の１５の参照サンプル特徴をサンプル分布分散生成器に入力して、１５の参照サンプルのサンプル分布分散を取得し、次に、１５の参照サンプルのサンプル分布分散を図４に示す分類器の重みとする。次に、ステップＳ５０２では、１５の参照サンプルのサンプル分布分散について、２つずつ対比する線形分類器を使用して検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離を算出する（すなわち、図４に示す「Ｄｉｓｔａｎｃｅ」）。次に、ステップＳ５０３では、特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を算出し、検出サンプル特徴と各参照サンプル特徴との類似度とする。

いくつかの実施例では、検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離は、ユークリッド距離（ＥｕｃｌｉｄＤｉｓｔａｎｃｅ）又はコサイン距離のうちの１つ又は複数として算出することができる。

いくつかの実施例では、ｓｏｆｔｍａｘ分類器又はｓｉｇｍｏｉｄ分類器を使用して検出サンプルと各参照サンプルとが同じカテゴリに属する確率を算出することができる。

ｓｏｆｔｍａｘ分類器を使用する場合、検出サンプルｘｊがカテゴリＷｎに属する確率は、以下で表すことができ、

ここで、<.，.>は、２つの要素間のコサイン距離を表す。

ｓｉｇｍｏｉｄ分類器を使用する場合、検出サンプルｘｊがカテゴリＷｎに属する確率は、以下で表すことができ、

ここで、<.，.>は、同様に、２つの要素間のコサイン距離を表す。

なお、上記の式でコサイン距離を使用して検出サンプル特徴と参照サンプル特徴との特徴距離を表すが、本開示はこれに限定されない。当業者は、ニーズに応じて検出サンプル特徴と参照サンプル特徴との他の距離を算出して両者間の差を表すことができ、他の距離は、ユークリッド距離、アースムーバー（ＥａｒｔｈＭｏｖｅｒ）距離などを含むが、これに限定されない。

図３に戻ると、検出サンプル特徴と各参照サンプル特徴との類似度を取得した（Ｓ３０４）後、ステップＳ３０５まで処理する。ステップＳ３０５では、各カテゴリに対して、類似度の平均値を算出し、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。図４の概略図を例とし、検出サンプル特徴と「怒り」、「軽蔑」、「嫌悪」の３つのカテゴリのうちの５つの参照サンプル特徴の２つずつの間の類似度を算出した後、それぞれ「怒り」、「軽蔑」、「嫌悪」の３つのカテゴリのうちの各カテゴリについて、５つの類似度の値を平均して、「怒り」、「軽蔑」、「嫌悪」の３つのカテゴリのうちの各カテゴリについての類似度の平均値を取得する。次に、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。

図６に示す動作概略図は、より直感的な方式で図３のステップＳ３０２－Ｓ３０５、及び図５のステップＳ５０１－Ｓ５０３の詳細を示す。

図６に示すように、参照サンプルセットは、トレーニングデータセットから選択された３つの分類（すなわち、「怒り」、「軽蔑」、「嫌悪」）の合計１５の参照サンプルを含み、検出サンプルセットは、この３つの分類に属する重複しない他の３つの検出サンプルを含む。参照サンプルセットのうちの１５の参照サンプルを特徴抽出器ｆ（θ）に入力して、３つのグループの参照サンプル特徴を取得することができる。すなわち「怒り」カテゴリに対応する参照サンプル特徴集｛ｆ１１（θ），ｆ１２（θ），ｆ１３（θ），ｆ１４（θ），ｆ１５（θ）｝、「軽蔑」カテゴリに対応する参照サンプル特徴集｛ｆ２１（θ），ｆ２２（θ），ｆ２３（θ），ｆ２４（θ），ｆ２５（θ）｝、及び「嫌悪」カテゴリに対応する参照サンプル特徴集｛ｆ３１（θ），ｆ３２（θ），ｆ３３（θ），ｆ３４（θ），ｆ３５（θ）｝である。同時に、同じ特徴抽出器ｆ（θ）を使用して検出サンプルセットのうちの３つの検出サンプルの検出サンプル特徴｛ｆ１（θ），ｆ２（θ），ｆ３（θ｝を抽出する。

最初のトレーニングでは、まず、「怒り」カテゴリに対応する１番目の検出サンプル特徴ｆ１（θ）を選択してニューラルネットワークをトレーニングする。例えば、検出サンプル特徴ｆ１（θ）について、ｆ１（θ）と上記の１５の参照サンプル特徴との特徴距離をそれぞれ算出して、３つのグループの合計１５の特徴距離｛Ｄ１１，Ｄ１２，Ｄ１３，Ｄ１４，Ｄ１５｝、｛Ｄ２１，Ｄ２２，Ｄ２３，Ｄ２４，Ｄ２５｝、及び｛Ｄ３１，Ｄ３２，Ｄ３３，Ｄ３４，Ｄ３５｝を取得する。いくつかの実施例では、特徴距離を検出サンプル特徴と参照サンプル特徴とのコサイン距離として算出することができる。例えば、式（５）に基づいて検出サンプル特徴ｆｋ（θ）と参照サンプル特徴ｆｉｊ（θ）とのコサイン距離Ｄｉｊを算出することができ、

ここで、図６に示す例について、ｋは、１、２又は３に等しくなければならない。ｉは、１、２又は３に等しくなければならない。ｊは、１、２、３、４又は５に等しくなければならない。式（５）に基づいて、コサイン距離Ｄｉｊは、［０，２］の範囲内にあるべきである。

上記の３つのグループの合計１５の特徴距離を算出した後、各特徴距離に基づいて、それに対応する類似度をそれぞれ算出することができる。例えば、図６は１５の特徴距離から対応する１５の確率値を算出する例を示す。例えば、上記の式（３）又は（４）に基づいて、この１５の確率値Ｐ１１、Ｐ１２、…、Ｐ３２を算出することができる。

なお、本開示は、「類似度」と「あるカテゴリに属する確率」との２つの記述に言及しているが、両者の意味は同等であり、すなわちすべて検出サンプルと参照サンプルとの類似の度合いを表すか、又は検出サンプルが参照サンプルカテゴリに属する確率を表す。検出サンプルと参照サンプルとの類似度が高いほど、検出サンプルが参照サンプルのカテゴリに属する確率が大きくなる。したがって、「類似度」と「あるカテゴリに属する確率」とは、いくつかの場合には互換的に使用することができる。また、注意する必要があることは、一般的には、本開示で言及される用語「特徴距離」は、「類似度」又は「あるカテゴリに属する」と逆の意味である。例えば、２つの特徴ベクトルについて、「特徴距離」が大きいほど、この２つの特徴ベクトル差が大きくなり、すなわち類似度が低くなることを表し、「特徴距離」が小さいほど、この２つの特徴ベクトル差が小さくなり、すなわち類似度が高くなることを表す。

前述のように検出サンプルと各参照サンプルとの類似度を取得した後、各カテゴリに対して、各カテゴリの類似度の平均値をそれぞれ算出することもできる。例えば、「怒り」カテゴリの類似度の平均値をＰ１ａｖｇとして算出し、「軽蔑」及び「嫌悪」カテゴリの類似度の平均値をＰ２ａｖｇとＰ３ａｖｇとしてそれぞれ算出する。

次に、図３に戻ると、ステップＳ３０５では、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。例えば、図６のＰ１ａｖｇ＝０．８、Ｐ２ａｖｇ＝０．６、Ｐ３ａｖｇ＝０．２であると仮定すると、１番目の検出サンプルと「怒り」カテゴリとの類似度が最大であることが証明され、ニューラルネットワークは、当該１番目の検出サンプルを「怒り」カテゴリに属するものとして予測する。

また、いくつかの実施例では、図３に示すトレーニング方法は、さらに、ｓｏｆｔｍａｘ活性化関数又はｓｉｇｍｏｉｄ活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が［０、１］の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含むことができる。

つまり、図６で算出されたＰ１ａｖｇ＝０．８、Ｐ２ａｖｇ＝０．６、Ｐ３ａｖｇ＝０．２である場合、Ｐ１ａｖｇ＋Ｐ２ａｖｇ＋Ｐ３ａｖｇ≠１である。この場合、活性化関数ｓｏｆｔｍａｘを使用してＰ１ａｖｇ、Ｐ２ａｖｇ、Ｐ３ａｖｇの値を正規化して、正規化された類似度の平均値の和が１であるようにすることができる。例えば、正規化されたＰ１’ａｖｇ＝０．５、Ｐ２’ａｖｇ＝０．３７５、Ｐ３’ａｖｇ＝０．１２５である。

これまでのところ、図４のニューラルネットワークモデルに示すように、既に２つずつ対比する線形分類器によって１番目の検出サンプルのカテゴリを予測する。しかしながら、ニューラルネットワークのトレーニング段階では、さらに、今回出力する予測結果が正しいか否かを決定し、予測結果と実際の結果との差に基づいて、第１の損失関数を使用してニューラルネットワークのパラメータを更新する必要がある（図３のステップＳ３０６）。

好ましくは、本開示の第１の損失関数は、バイナリ交差エントロピー損失関数（Ｂｉｎａｒｙｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓｆｕｎｃｔｉｏｎ）であり、バイナリ交差エントロピー損失関数の損失値に基づいて、ニューラルネットワークのパラメータを更新することができる。前記損失値は、前記検出サンプルの実際カテゴリと前記検出サンプルの予測カテゴリとの差を示す。

バイナリ交差エントロピー損失関数は、以下で定義することができ、

ここで、

ここで、Ｍは分類器のカテゴリ総数であり（特に、図４に示す２つずつ対比する分類器について、ここのＭ＝３＊５＝１５）、ｎは、Ｍのうちいずれかのカテゴリであり、ｗ_ｎは、カテゴリ重み（デフォルトは１である）であり、ｘ_ｎは、検出サンプル特徴とＮ番目の参照サンプル特徴の類似確率であり、値は（０，１）であり、ｙ_ｎは、検出サンプルとＮ番目の参照サンプルが同一のカテゴリに属するか否かのラベリングであり、検出サンプルとＮ番目の参照サンプルが同一のクラスに属する場合、ｙ_ｎ＝１であり、そうでない場合、ｙ_ｎ＝０である。

いくつかの実施例では、損失関数の損失値が第１の閾値より大きい場合、予測値と実際の値との差が大きすぎて、ニューラルネットワークの損失関数がまだ収束されていないことを説明し、損失関数の損失値が前記第１の閾値より小さいまで、ニューラルネットワークに対して２回目、３回目、さらにより多くの反復的なトレーニングを行う必要がある。いくつかの実施例では、第１の閾値は、極小値を表し、例えば、第１の閾値はεに等しく、ε＝１ｅ－１２である。

以上は、図面を組み合わせて検出サンプル特徴と各参照サンプル特徴を使用して２つずつ対比して、平均を求める方法でニューラルネットワークをトレーニングする実施例を説明した。特徴中心を使用する方法と比較して、２つずつ対比して平均を求める方法は、顕著な情報の紛失を防止して、トレーニング後のモデルがより高い精度又は正確率を有することができる。

しかしながら、以上で説明した実施例の分類方法は、顕著な情報を紛失する問題を効果的に防止することができるが、カテゴリ間の差異性には依然としていくつかの不足がある。例えば、検出サンプル特徴ｆ（ｘ）、及びＮｘＫ個のサンプル分散Ｗ１、Ｗ２、…、Ｗｍ（ここで、ｍ＝Ｎ＊Ｋ）について、コサイン距離を使用してｆ（ｘ）とサンプル分散との距離をそれぞれ算出する場合、特徴距離Ｄ１、Ｄ２、…、Ｄｍを取得する。ｓｏｆｔｍａｘ又はｓｉｇｍｏｉｄ分類器を使用してｆ（ｘ）と１、２、…、Ｍ個の参照サンプルが同一のクラスに属するか否かの確率Ｐ１、Ｐ２、…、Ｐｍを算出する場合、ｆ（ｘ）とサンプル分散Ｗとの距離Ｄの分散が小さく場合、分類器によって出力された確率Ｐ１、Ｐ２、…、Ｐｍ間の差が小さすぎて、分類が困難になる。

上記のクラス間の差が小さすぎる問題を解决するために、いくつかの実施例では、拡大係数を導入して特徴距離Ｄを拡大して、分類器の各カテゴリに対する出力確率がより大きい差を有するようにする。

図７は本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。

図７に示すように、検出サンプル特徴と各参照サンプル特徴のサンプル分散を２つずつ対比して両者の特徴距離を算出した後、当該特徴距離「Ｄｉｓｔａｎｃｅ」を係数「ｓｃａｌｅ」に乗算して、次に、両者の積を活性化関数に入力して検出サンプルが各分類に属する確率を算出する。

検出サンプル特徴ｆ（ｘ）について、参照サンプルと検出サンプルが同一のクラスに属する確率Ｐ＞＝１－ε、また、参照サンプルと検出サンプルが同一のクラスに属していない確率Ｐ＜εであることを望ましいし、εは、ゼロより大きい極小値（例えば、ε＝ｅ－１２）である。

例えば、活性化関数がｓｏｆｔｍａｘである場合、以下の式（８）と式（９）に基づいて拡大係数ｓｃａｌｅの値の範囲を算出する。

ここで、ｄ_ｍｉｎとｄ_ｍａｘは、検出サンプル特徴と同じカテゴリＷ_ｎの参照サンプル特徴との最小距離と最大距離をそれぞれ表す。

式（８）から以下を解くことができ、

式（９）から以下を解くことができ、

以上の両者を組み合わせて以下の拡大係数ｓｃａｌｅの範囲を取得することができ、

例えば、本実施例では、Ｎ＝３、及びε＝１ｅ－１２である場合、拡大係数ｓｃａｌｅ∈[１２，１５］である。

同様に、活性化関数がｓｉｇｍｏｉｄである場合、以下の式（１０）と式（１１）に基づいて拡大係数ｓｃａｌｅの値の範囲を算出することができる。

式（１０）から以下を解くことができ、

式（１１）から以下を解くことができ、

しかしながら、この場合、上記の不等式は、左側が正であり、右側が負である場合が発生され、このような不合理な場合が発生することを回避するために、特徴距離に対して以下に示す正規化を行って、正規化された特徴距離が［－１，１］の範囲内にあるようにし、以下の式（１２）に基づいて最大と最小特徴距離を正規化し、

最大と最小特徴距離を正規化した後、

これにより解くことができ、

すなわち、

ε＝１ｅ－１２である場合、ｓｃａｌｅ＝２７である。

上記はそれぞれｓｏｆｔｍａｘとｓｉｇｍｏｉｄの２つの活性化関数の拡大係数の値の範囲の算出を説明する。用途においては、実際のニーズに応じて対応する拡大係数の値を選択することができる。

当該拡大係数を設置することによって、活性化関数の各カテゴリに対する出力確率がより大きい差を有することができ、分類がより容易になることができる。また、上記の拡大係数の算出方法は、拡大係数を手動で調整することによる余分な作業量を効果的に回避することもできる。

図８は、図７に示す分類のためのニューラルネットワークモデルの結果に対応する概略図を示す。

図８に示すように、横軸は、１５の参照サンプルのサンプル番号を表し、縦軸は、検出サンプルと各に対応する参照サンプルが同じカテゴリに属する確率を表す。図８に示すように、「怒り（Ａ）」、「軽蔑（Ｃ）」、及び「嫌悪（Ｄ）」の３種類の表情カテゴリを参照サンプルセットのカテゴリとして選択した場合、検出サンプルの特徴と参照サンプルの特徴との特徴距離に対して上記のような拡大を行っていない場合、「ｏｒｉｇｉｎａｌ」をラベル付きとする確率分布曲線から分かるように、各カテゴリの参照サンプルに対応する確率間の差は非常に小さい（例えば、基本的には、０．０５－０．１の区間内に分布される）。対照的に、検出サンプルの特徴と参照サンプルの特徴との特徴距離に対して上記のような拡大を行う場合、例えば、拡大係数１５を乗算すると、「ｓｃａｌｅ１５」をラベル付きとする確率分布曲線から、分かるように、各カテゴリの参照サンプルに対応する確率間の差は、拡大される（例えば、最大確率値は約０．４であり、最小確率値は０に近づく）。したがって、特徴距離に対して拡大係数を設置する場合、各カテゴリの参照サンプルに対応する確率間の差は、顕著に拡大されて、より正確な分類結果を出力するのに役立つ。

以上は、図面を組み合わせて検出サンプル特徴と各参照サンプル特徴を使用して２つずつ対比して、平均を求める方法でニューラルネットワークモデルをトレーニングする実施例を説明する。同時に、特徴距離を拡大係数に乗算して、次に、両者の積を活性化関数に入力して検出サンプルが各分類に属する確率を算出する改善方法を提供する。上記の特徴中心を使用する方法と比較して、２つずつ対比して平均を求める方法は、顕著な情報の紛失を防止して、トレーニング後のモデルがより高い精度又は正確率を有することができ、拡大係数を乗算する方法は、各カテゴリ間の予測確率の差をさらに増大させ、分類の精度をさらに向上させることができる。

しかしながら、上記の方法は、情報紛失問題による誤判断問題を考慮し、同時に予測確率間の差が小さすぎることによる誤判断問題を考慮するが、小サンプル分類タスクのうちの異なるカテゴリのサンプル間の類似性による誤判断問題を効果的に解决することができない。

言い換えれば、同一のサンプルは複数の属性を有することができ、例えば、顔サンプルについて、表情特徴に基づいてそれを分類することを望ましい場合があり、この場合、表情特徴に対応する属性を「第１の属性」と呼ぶことができる。しかしながら、いくつかの場合によって、例えば顔認証では、表情特徴ではなく、顔の固有の特徴に基づいてそれを分類できることを望ましい場合があり、この場合、顔の固有の特徴に対応する属性を「第２の属性」と呼ぶことができる。

上記の表情分類方法において以下の状況が出現すると仮定する、検出サンプルがＡ女性の「怒り」の表情サンプルであり、参照サンプル１がＡ女性の「悲しみ」の表情サンプルであり、参照サンプル２がＢ女性の「怒り」の表情サンプルである。表情に基づいて分類するタスクについて、検出サンプルと参照サンプル２とが同じカテゴリに属する確率は、検出サンプルと参照サンプル１とが同じカテゴリに属する確率より大きいことをニューラルネットワークが出力することが望ましいため、ニューラルネットワークが、検出サンプルと参照サンプル１とが同じカテゴリに属する確率は大きいことを出力した場合、実際の「怒り」カテゴリに属する検出サンプルが「悲しみ」に属する表情カテゴリに誤判断されることを意味する。

図９はサンプル分類方法の対応結果の概略図を示す。

図９に示すように、検出サンプルのうちのＡ女性の固有の顔特徴と参照サンプル１のうちのＡ女性の固有の顔特徴の類似度が大きいため、表情タスクに対する分類プロセスで「表情」の影響要素が弱化され、「五官特徴」の影響要素が主導的な地位にある。表情の分類タスクに基づいて、検出サンプルと参照サンプル１が同じカテゴリに属する確率（すなわち表情類似度０．７）が検出サンプルと参照サンプル２が同じカテゴリに属する確率（すなわち表情類似度０．６）より大きいことが算出されて、誤判断になる。

上記の状況の発生を回避して、異なる属性間の相互影響を最小限にするために、本開示は「消去」サンプルに基づく改善方法を提供する。

具体的には、本開示は、上記のニューラルネットワークモデルに１つの追加の入力、すなわち「消去」サンプルを増加することによって、ニューラルネットワークが他の属性に関連する共通情報を忘れさせ、ニューラルネットワークがカテゴリ特徴を捕捉する能力を改善し、分類の精度をさらに向上させる。

図１０は本開示の実施例による分類のためのニューラルネットワークのトレーニング方法１０００の別の例示的なフローチャートを示す。図１１は本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。なお、図１０に示す各方法のステップは、図３に示す分類方法のさらなる補足ステップと見なすことができる。

図１０に示すように、分類のためのニューラルネットワークのトレーニング方法１０００は、以下のステップを含む。
Ｓ１００１：トレーニングデータセットから消去サンプルを選択し、
Ｓ１００２：消去サンプルの消去サンプル特徴を抽出し、
Ｓ１００３：検出サンプル特徴と消去サンプル特徴との第１の特徴距離を取得し、
Ｓ１００４：検出サンプルと同じカテゴリに属するＫ個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得し、
Ｓ１００５：検出サンプル特徴と参照サンプル特徴中心との第２の特徴距離を取得し、
Ｓ１００６：前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。

なお、消去サンプルは、検出サンプル間にある次元上での共通情報を有する入力データである。例えば、検出サンプルとＫ個の参照サンプルとは同じ第１の属性、例えば「表情属性」を有し、検出サンプルと消去サンプルとは、同じ第２の属性、例えば「五官特徴属性」を有することができ、明らかに、当該第１の属性は当該第２の属性とは異なる。

図１０に示すように、ステップＳ１００１では、トレーニングデータセットから消去サンプルを選択する。なお、ステップＳ１００１では消去サンプルはトレーニングデータセットから選択されることを限定するが、ニーズに応じて他の集合から消去サンプルを検索又は選択することもでき、本開示はこれについて限定しない。例えば、図９の例について、例えば、現在のトレーニングデータセットにはＡ女性の「悲しみ」の表情サンプル又は「怒り」とは異なる他の表情サンプルが含まれていないと、他の集合からＡ女性に関する「悲しみ」表情サンプル又は「怒り」とは異なる他の表情サンプルを選択することができる。例えば、コンピュータ合成又は他の補助プログラムによってＡ女性に対応する「怒り」とは異なる表情サンプルを生成し、消去サンプルとすることができる。

次に、ステップＳ１００２では、消去サンプルの消去サンプル特徴を抽出する。図１１に示すように、消去サンプル特徴の抽出は、参照サンプル特徴と検出サンプル特徴は同じ特徴抽出器ｆ（θ）を使用し、本開示はこれに限定されない。各自の独立した特徴抽出器を使用して参照サンプル特徴と、検出サンプル特徴と、消去サンプル特徴とをそれぞれ抽出することができる。

次に、ステップＳ１００３では、検出サンプル特徴と消去サンプル特徴との第１の特徴距離を取得する。第１の特徴距離を取得する方法は、上記の参照サンプル特徴と検出サンプル特徴との距離を取得することと類似し、ここで詳細に説明しない。

次に、ステップＳ１００４では、検出サンプルと同じカテゴリに属するＫ個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得する。

例えば、図１１では、検出サンプルが既知のラベル付き「嫌悪」を有する場合、参照サンプルセットのうちの「嫌悪」カテゴリに属する５つの参照サンプル特徴について、平均プーリングによってカテゴリが「嫌悪」である参照サンプルの重み中心（「特徴中心」とも呼ばれる）を求める。本実施例では、特徴中心を算出する方法は、図２Ａ－２Ｂの特徴中心を算出する方法と類似し、ここで詳細に説明しない。

検出サンプルと同じカテゴリに属するＫ個の参照サンプルの参照サンプル特徴中心を算出して取得した後、ステップＳ１００５では、検出サンプル特徴と参照サンプル特徴中心との第２の特徴距離を取得する。

本実施例では、「第１の特徴距離」は、検出サンプルと「負サンプル」との距離と見なすことができ、「第２の特徴距離」は、検出サンプルと「正サンプル」との距離と見なすことができる。本開示では「消去サンプル」の用語を使用するが、その意味は、当該方法を使用して得られた効果を説明するだけであり、すなわちニューラルネットワークが複数の属性間の共通情報を忘れさせ、実際の操作プロセスでは、実際のサンプルに対する「消去」操作が存在しない。

最後に、ステップＳ１００６では、第１の特徴距離と第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新する。

いくつかの実施例では、前記第２の損失関数は、コサイン距離損失関数であり、前記第１の特徴距離は、前記検出サンプル特徴と前記消去サンプル特徴との間のコサイン距離に対応し、前記第２の特徴距離は、前記検出サンプル特徴と前記参照サンプル特徴中心との間のコサイン特徴距離に対応する。例えば、コサイン距損失関数は、式（１３）で表すことができ、

本開示では、コサイン距離損失関数は、２つのベクトルの類似性と非類似性を評価するために用いられ、２つのベクトルのコサイン値が高いほど、類似性が高くなる。式（１３）では、ｙ＝１の場合、－ｃｏｓ（ｘ１，ｘ２）の平行移動関数を損失関数として直接に使用する。例えば、上記の参照サンプル特徴中心と検出サンプル特徴について、両者がすべて同様のカテゴリに属するため、式（１３）のｙは１に等しく、対応する損失関数が１－ｃｏｓ（ｘ１，ｘ２）であるべきである。ここで、ｘ１とｘ２とをそれぞれ参照サンプル特徴中心と検出サンプル特徴と見なすことができる。ｙ＝－１の場合、式（１３）のｃｏｓ（ｘ１，ｘ２）＝ｍａｒｇｉｎで分割して、２つの特徴ベクトルの非類似性を測定するために用いられる。例えば、上記の消去サンプル特徴と検出サンプル特徴について、両者が異なるカテゴリに属するため、式（１３）のｙは、－１に等しく、対応する損失関数が、ｍａｘ（０，ｃｏｓ（ｘ１，ｘ２）－ｍａｒｇｉｎ）であるべきである、ここで、ｘ１とｘ２とをそれぞれ消去サンプル特徴と検出サンプル特徴と見なすことができる。その中、ｍａｒｇｉｎは、［－１，１］範囲内の閾値であり、好ましくは、ｍａｒｇｉｎの値は、［０，０．５］の範囲内にある。

同様に、コサイン距離を使用して上記の第１の特徴距離と第２の特徴距離とを表す場合、第１の特徴距離は、ｄ１＝１－ｃｏｓ（ｘ１，ｘ）であり、ｘ１及びｘは、それぞれ消去サンプル特徴及び検出サンプル特徴である。同様に、第２の特徴距離は、ｄ２＝１－ｃｏｓ（ｘ２，ｘ）であり、ｘ２及びｘは、それぞれ参照サンプル特徴中心及び検出サンプル特徴である。

いくつかの実施例では、前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、前記第１の特徴距離が第２の閾値より大きく、前記第２の特徴距離が前記第３の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む。例えば、第２の閾値は、２―εであってもよく、ここで、ε＝１ｅ－１２である。例えば、第３の閾値は、ε＝１ｅ－１２であってもよい。つまり、消去サンプルを使用してニューラルネットワークをトレーニングする目的は、消去サンプル特徴と検出サンプル特徴との距離をできるだけ大きくし、同時に、参照サンプル特徴中心と検出サンプル特徴との距離をできるだけ小さくして、ニューラルネットワークが現在分類タスクの属性とは異なる他の分類属性の共通情報を忘れさせ、ニューラルネットワークの分類の精度をさらに向上させる。

いくつかの実施例では、ニューラルネットワークの参照サンプル特徴中心と検出サンプル特徴との距離をεに迅速に最適化し、ニューラルネットワークの消去サンプル特徴と検出サンプル特徴との距離を２―εに迅速に最適化するために、トレーニング中に上記の第２の閾値にオフセットを加算し、第１の特徴距離が第２の閾値とオフセットの合計より大きく、同時に第２の特徴距離が前記第３の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止する。

なお、以上は図１０と１１を組み合わせて「消去」サンプルを導入するトレーニング方法を説明したが、当該トレーニング方法を単独で行うことはできない。実際のトレーニングプロセスでは、図３、４に示すトレーニング方法とニューラルネットワークモデルとを組み合わせてモデルに対して総合的なトレーニングを行う必要があり、上記の第１の損失関数（バイナリ交差エントロピー損失関数）と第２の損失関数（コサイン距離損失関数）の両者を組み合わせてニューラルネットワークに対して総合的なトレーニングを行う。

図１２は図１１に示すネットワークモデルの結果に対応する概略図を示す。

図１２に示すように、「消去サンプル」に関連する第２のトレーニングを導入していない場合、検出サンプルのうちのＡ女性の固有の顔特徴と参照サンプル１のうちのＡ女性の固有の顔特徴の類似度が大きいため、表情タスクに対する分類プロセスで「表情」の影響要素が弱化され、同時に「五官特徴」の影響要素が主導的な地位にある。表情の分類タスクに基づいて、検出サンプルと参照サンプル１が同じカテゴリに属する確率（すなわち表情類似度Ｓ１＝０．７）が検出サンプルと参照サンプル２が同じカテゴリに属する確率（すなわち表情類似度Ｓ２＝０．６）より大きいことが算出されて、誤判断になる。

対照的に、「消去サンプル」に関連する第２のトレーニングを導入した場合、ニューラルネットワークは、「五官特徴」の影響要素を最小限に弱化することに成功するとともに、「表情特徴」の影響要素を最大限に高めることによって、ニューラルネットワークは、検出サンプルと参照サンプル１が同じカテゴリに属する確率（すなわち表情類似度Ｓ１＝０．０１）が検出サンプルと参照サンプル２が同じカテゴリに属する確率（すなわち表情類似度Ｓ２＝０．９９）よりはるかに小さいことを算出して、検出サンプルの表情カテゴリを正確に認識する。

なお、以上の実施例は、顔の表情と顔の固有の特徴とに対する２つの次元の異なる属性を説明するが、これは限定的なものではない。上記の「消去」サンプルの構想に基づいて他の異なるシナリオに適用する必要があり、類似する設計は、依然として本開示の保護の範囲に属する。例えば、疾患診断用途シナリオでは、ある疾患の特定の特徴を分類の属性とする場合、ニューラルネットワークが同一の人の異なる疾患によって共有される共通情報を忘れさせるようにする必要がある。さらに理解する必要があることは、以上の例はターゲットタスクが「表情」分類であることを示す場合、五官特徴を消去又は忘れさせる例が必要であり、逆の場合にも同様に適用される。例えば、現在のターゲットタスクが「顔認証」である場合、「表情」のこの次元の特徴を弱化することを望ましく、ニューラルネットワークが同一の人に属する参照サンプルに対して高い類似度又は確率を出力できるようにする。

以上は図面を組み合わせて分類のためのニューラルネットワークのトレーニング方法の様々な実施例を説明する。以下は図面を組み合わせてトレーニング済みのニューラルネットワークを使用してテストする方法の実施例、すなわち分類方法の実施例を説明する。

前記のように、本開示の基本的な考え方は、まず、大量のラベリングデータを有する類似するタスクを使用してモデルをトレーニングして、モデルが十分な先行知識を取得するようにし、次に、テストに少量のラベリングデータを参照サンプルセットとして導入して、先行知識を有するモデルを使用して検出サンプルのカテゴリを予測する。しかしながら、注意する必要があることは、テスト段階に対応する分類カテゴリとトレーニング段階の分類カテゴリは異なるべきである。

図１３は本開示の実施例による分類方法１３００の例示的なフローチャートを示す。図１４は本開示の実施例によるネットワークモデルの概略図を示す。

図１３に示すように、分類方法１３００は、以下のステップを含む。
Ｓ１３０１：検出サンプルの検出サンプル特徴を抽出し、
Ｓ１３０２：複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出し、
Ｓ１３０３：前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、
Ｓ１３０４：各グループの参照サンプルについて、前記類似度の平均値を算出し、
Ｓ１３０５：前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定する。

まず、ステップ１３０１では、検出サンプルの検出サンプル特徴を抽出し、ステップＳ１３０２では、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出する。なお、分類方法１３００では、図３に示すトレーニング方法のように、検出サンプルと参照サンプルの選択方式を限定してないが、実際には両者は類似している。両者の差異点は、トレーニング段階のカテゴリについて、大量のラベリングデータで構成されたメタデータセットがあるが、テスト段階のカテゴリについては、実際には、少量のラベリングサンプルのみを有し、また、テスト段階のサンプルカテゴリとトレーニング段階のサンプルカテゴリとは異なることである。例えば、前のトレーニング段階では、トレーニングデータセットは、「怒り」、「軽蔑」、「嫌悪」などに対応する７つのカテゴリのサンプルを含むが、テスト段階のサンプルカテゴリは、「疲れ」、「戸惑い」、及び「苦しみ」の３種類のみに対応し、図１４に示すように、この３種類のサンプルカテゴリは、トレーニング段階のトレーニングデータセットに含まれていない。

また、テスト段階で参照サンプルセットに対して選択されたサンプルの数は、トレーニング段階と異なることもできる。

例えば、図１４に示すように、それぞれ「疲れ」、「戸惑い」、及び「苦しみ」の３種類の表情カテゴリについて、上記のトレーニング段階に示す３ｘ５個の参照サンプルではなく、各２つのサンプルを参照サンプルセットとして選択する。

例えば、同一の特徴抽出器ｆ（θ）を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴を抽出することができ、ここで、抽出された参照サンプル特徴と検出サンプル特徴とは、多次元特徴ベクトル（例えば、５１２次元）であってもよい。つまり、図１４に示す例について、抽出された参照サンプル特徴は、３つのカテゴリに対応する６つの多次元特徴ベクトルを含み、抽出された検出サンプル特徴は、検出サンプルに対応する１つの多次元特徴ベクトルを含む。

なお、図１４は同じ特徴抽出器ｆ（θ）を使用して各参照サンプルの参照サンプル特徴と検出サンプルの検出サンプル特徴を抽出する方法を示すが、実際のニーズに応じて、参照サンプル特徴と検出サンプル特徴との抽出について異なる特徴抽出器を適用することができる。トレーニング段階では既にこの点について示し、ここで詳細に説明しない。

次に、ステップＳ１３０４では、前記検出サンプル特徴と複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得する。

図１５は、本開示の実施例による検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法１５００の例示的なフローチャートを示す。図１５に示すフローチャートの各ステップは、図１３のステップ１３０４の細分化ステップと見なすことができる。

図１５に示すように、検出サンプル特徴と各参照サンプル特徴との類似度を取得するための方法１５００は、以下のステップを含む。
Ｓ１５０１：前記参照サンプルセットのうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出し、
Ｓ１５０２：前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出し、
Ｓ１５０３：特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。

ステップＳ１５０１では、各参照サンプルの参照サンプル特徴のサンプル分布分散を算出する。すなわち、上記の６つの参照サンプル特徴をサンプル分布分散生成器に入力して、６つの参照サンプルのサンプル分布分散（すなわち図１４に示す参照サンプル重み）を取得する。次に、ステップＳ１５０２では、６つの参照サンプルのサンプル分布分散について、２つずつ対比する線形分類器を使用して検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離（すなわち、如図１４に示す「Ｄｉｓｔａｎｃｅ」）を算出する。次に、ステップＳ１５０３では、特徴距離に基づいて検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、検出サンプル特徴と各参照サンプル特徴との類似度として算出する。

いくつかの実施例では、検出サンプル特徴と各参照サンプルのサンプル分布分散との特徴距離は、ユークリッド距離又はコサイン距離のうちの１つ又は複数として算出することができる。

検出サンプルと参照サンプルが同じカテゴリに属する確率を算出する方法は、上記のトレーニング段階で記載の方法、及び式（３）と式（４）を参照することができるので、ここでは詳細に説明しない。

しかしながら、理解する必要があることは、式（３）と式（４）でコサイン距離を使用して検出サンプル特徴と参照サンプル特徴との特徴距離を表すが、本開示はこれに限定されない。当業者は、ニーズに応じて検出サンプル特徴と参照サンプル特徴との他の距離を算出して両者間の差を表すことができ、他の距離は、ユークリッド距離、アースムーバー（ＥａｒｔｈＭｏｖｅｒ）距離などを含むが、これに限定されない。

図１３に戻ると、検出サンプル特徴と各参照サンプル特徴との類似度を取得した（Ｓ１３０３）後、処理をステップＳ１３０４まで行う。ステップＳ１３０４では、各グループの参照サンプルについて、類似度の平均値を算出し、類似度の平均値が最大になるカテゴリを検出サンプルが属するカテゴリとして決定する。

図１４の概略図を例とし、検出サンプル特徴と「疲れ」、「苦しみ」、及び「軽蔑」のこの３つのカテゴリのうちの２つの参照サンプル特徴の２つずつの間の類似度を算出した後、それぞれ「疲れ」、「苦しみ」、及び「軽蔑」のこの３つのカテゴリのうちの各カテゴリについて、２つの類似度の値を平均して、「疲れ」、「苦しみ」、及び「軽蔑」のこの３つのカテゴリのうちの各カテゴリに対する類似度の平均値を取得する。次に、類似度の平均値が最大になるカテゴリを検出サンプルの予測カテゴリとして決定する。

図１６に示す動作概略図は、より直感的な方式で図１３のステップＳ１３０１－Ｓ１３０５、及び図１５のステップＳ１５０１－Ｓ１５０３の詳細を示す。

図１６に示すように、参照サンプルセットは、３つの分類（すなわち、「疲れ」、「苦しみ」、及び「軽蔑」）の合計６つの参照サンプルを含む、検出サンプルはこの３つの分類のうちの１つの分類に属するが、トレーニング段階とは異なり、検出サンプルはラベリングされておらず、すなわちニューラルネットワークは、事前に検出サンプルの真の分類を知らない。参照サンプルセットのうちの６つの参照サンプルを特徴抽出器ｆ（θ）に入力して、３つのグループの参照サンプル特徴を取得することができ、すなわち「疲れ」カテゴリに対応する参照サンプル特徴集｛ｆ１１（θ），ｆ１２（θ）｝、「戸惑い」カテゴリに対応する参照サンプル特徴集｛ｆ２１（θ），ｆ２２（θ）｝、及び「苦しみ」カテゴリに対応する参照サンプル特徴集｛ｆ３１（θ），ｆ３２（θ）｝である。同時に、同じ特徴抽出器ｆ（θ）を使用して検出サンプルの検出サンプル特徴ｆ１（θ）を抽出する。

検出サンプルの分類プロセス中に、検出サンプル特徴ｆ１（θ）について、ｆ１（θ）と上記の６つの参照サンプル特徴との特徴距離をそれぞれ算出して、３つのグループの合計６つの特徴距離｛Ｄ１１，Ｄ１２｝、｛Ｄ２１，Ｄ２２｝、及び｛Ｄ３１，Ｄ３２｝を取得する。いくつかの実施例では、特徴距離を検出サンプル特徴と参照サンプル特徴とのコサイン距離として算出することができる。例えば、上記の式（５）に基づいて検出サンプル特徴と参照サンプル特徴とのコサイン距離を算出することができる。

上記の３つのグループの合計６つの特徴距離を算出した後、各特徴距離に基づいて、それに対応する類似度をそれぞれ算出することができる。例えば、図１６は６つの特徴距離から対応する６つの確率値を算出する例を示す。例えば、上記の式（３）又は（４）に基づいてこの６つの確率値Ｐ１１、Ｐ１２、…、Ｐ３２を算出することができる。

なお、本開示は、「類似度」と「あるカテゴリに属する確率」との２つの記述に言及しているが、両者の意味は同等であり、この点は、既にトレーニング段階の方法で詳細に示し、ここで詳細に説明しない。

前述のように検出サンプルと各参照サンプルとの類似度を取得した後、各カテゴリに対して、各カテゴリの類似度の平均値をそれぞれ算出することもできる。例えば、「疲れ」カテゴリの類似度の平均値をＰ１ａｖｇとして算出し、「戸惑い」及び「苦しみ」のカテゴリの類似度の平均値をＰ２ａｖｇ及びＰ３ａｖｇとしてそれぞれ算出する。

次に、図１３に戻ると、ステップＳ１３０５では、類似度の平均値になる最大のカテゴリを検出サンプルが属するカテゴリとして決定する。例えば、図１６のｐ１ａｖｇ＝０．６、ｐ２ａｖｇ＝０．８、ｐ３ａｖｇ＝０であると仮定する場合、検出サンプルと「戸惑い」カテゴリの類似度が最大であることが証明され、ニューラルネットワークは、当該検出サンプルが「戸惑い」カテゴリに属するとマークする。

また、いくつかの実施例では、図１３に示すトレーニング方法は、ｓｏｆｔｍａｘ活性化関数又はｓｉｇｍｏｉｄ活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が［０，１］の範囲内になるようにするステップと、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含むことができる。

つまり、図１６でｐ１ａｖｇ＝０．６、ｐ２ａｖｇ＝０．８、ｐ３ａｖｇ＝０．２が算出された場合、ｐ１ａｖｇ＋ｐ２ａｖｇ＋ｐ３ａｖｇ≠１である。この場合、活性化関数ｓｏｆｔｍａｘを使用してｐ１ａｖｇ、ｐ２ａｖｇ、ｐ３ａｖｇの値を正規化して、正規化された類似度の平均値の和が１であるようにすることができる。例えば、正規化されたｐ１’ａｖｇ＝０．３７５、ｐ２’ａｖｇ＝０．５、ｐ３’ａｖｇ＝０．１２５である。この場合、正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定することができる。

本開示の検出サンプルと参照サンプルを２つずつ対比して平均を求める方法による利点をより明確に理解するために、図１７－１８は、本開示により提供される方法と、まず、特徴中心を算出し、次に、類似度を再算出する従来の方法の効果の比較の例を提供する。

図１７は、小サンプル分類方法の対応結果の概略図を示す。図１８は、図１６に示す分類方法の結果に対応する概略図を示す。

例えば、図１７に示すように、検出サンプルの実際の分類は「悲しみ」であるべきである。しかしながら、まず、特徴中心を算出し、次に、類似度を再算出する場合、「悲しみ」参照サンプルセットには「頭を抱える」動作に関する参照サンプルが１つしかないため、まず、参照サンプル特徴について平均を求める場合、「頭を抱える」に関連する情報が平滑化されて、ニューラルネットワークが検出サンプルを「驚き」として誤判断するようになる。例えば、検出サンプルと悲しみ特徴中心との類似度は０．２３であり、驚き特徴中心との類似度は０．２５であり、０．２５＞０．２３であるため、ニューラルネットワークは、検出サンプルを「驚き」として誤判断する。

対照的に、図１８では、検出サンプルと悲しみカテゴリの各サンプルの類似度は、それぞれ０．２、０．２、０．２、０．２、０．７であり、平均類似度は０．３であり、検出サンプルと驚き各サンプルの類似度は、それぞれ０．２、０．２、０．２、０．２、０．３であり、平均類似度は、０．２２である。０．３＞０．２２であるため、ニューラルネットワークは、検出サンプルを「悲しみ」として正確に判断する。

以上、図面を組み合わせて、検出サンプル特徴と各参照サンプル特徴を使用して２つずつ対比して、平均を求める分類方法の実施例を説明した。特徴中心を使用する方法と比較して、２つずつ対比して平均を求める方法は、顕著な情報の紛失を防止して、トレーニング後のモデルがより高い精度又は正確率を有することができる。

しかしながら、以上で説明した実施例の分類方法は、顕著な情報を紛失する問題を効果的に防止することができるが、カテゴリ間の差異性には依然としていくつかの不足がある。

上記のクラス間の差が小さすぎる問題を解决するために、いくつかの実施例では、拡大係数を導入して特徴距離を拡大して、分類器の各カテゴリに対する出力確率がより大きい差を有するようにする。

図１９は、本開示の実施例による分類のためのニューラルネットワークモデルの別の概略図を示す。

いくつかの実施例では、分類方法１３００は、検出サンプル特徴と各参照サンプル特徴のサンプル分布分散との特徴距離に第１の係数を乗算して、拡大された特徴距離を取得するステップと、拡大された特徴距離に基づいて、前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、をさらに含むことができる。

例えば、図１９に示すように、検出サンプル特徴と各参照サンプル特徴のサンプル分散を２つずつ対比して両者の特徴距離を算出した後、当該特徴距離「Ｄｉｓｔａｎｃｅ」を係数「ｓｃａｌｅ」に乗算して、次に、両者の積を活性化関数に入力して検出サンプルが各分類に属する確率を算出する。

拡大係数を設置してクラス間出力確率差を増加する方法は、トレーニング段階で面７を組み合わせて説明する方法と類似するので、ここでは詳細に説明しない。いくつかの実施例では、検出サンプル特徴と各参照サンプル特徴のサンプル分布分散との特徴距離の理論的な最大値及び最小値に基づいて、当該拡大係数の値の範囲を算出することができる。例えば、上記の式（８）～（１１）に基づいて拡大係数の数値範囲を算出することができる。

以上、図面を組み合わせて、分類のためのニューラルネットワークのトレーニング方法とテスト方法の様々な実施例を説明した。検出サンプル特徴と各参照サンプル特徴を２つずつ対比して平均を求める分類方法によって、特徴中心を使用することによって引き起こされる顕著な情報が平滑化される問題を効果的に解决し、分類の精度を向上させることができる。また、特徴距離を拡大した後に類似度又は確率を求めることによって、カテゴリ間の確率の差を効果的に増加させることができ、分類の精度をさらに向上させることができる。さらに、トレーニング段階では消去サンプルの方法を導入して、ニューラルネットワークが他の分類タスクに関連する共通情報を忘れさせ、共通情報による干渉を回避し、分類の精度をさらに向上させる。

本開示は分類装置をさらに提供する。図２０は、本開示の実施例による分類装置２０００の例示的なブロック図を示す。

図２０に示すように、分類装置２０００は、特徴抽出モジュール２００１と、類似度取得モジュール２００２と、カテゴリ決定モジュール２００３とを含む。これらのモジュールは、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組合せによって実現することができる。

いくつかの実施例では、特徴抽出モジュール２００１は、検出サンプルのうちの検出サンプル特徴を抽出し、複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するように構成される。各グループの参照サンプルは、同じカテゴリを有するべきである。

いくつかの実施例では、類似度取得モジュール２００２は、前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、各グループの参照サンプルについて、前記類似度の平均値を算出するように構成される。

いくつかの実施例では、カテゴリ決定モジュール２００３は、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するように構成される。

なお、本開示の実施例では、分類装置２０００は、より多くのモジュールを含むこともでき、上記の特徴抽出モジュール２００１、類似度取得モジュール２００２、及びカテゴリ決定モジュール２００３に限定されない。例えば、分類装置２０００は、サンプル選択モジュール（図示せず）をさらに含むことができ、サンプルセットから上記の参照サンプルセットを選択するために用いられる。選択的には、分類装置２０００は、通信モジュール（図示せず）を含むこともでき、サーバ又は他の機器と有線又は無線通信を行ってデータを受信又は送信する。また、分類装置２０００は、ユーザの入力を受信するための入力／出力モジュールを含むこともできる。

本開示の実施例では、分類装置２０００は、上記の分類方法１３００及び１５００に関する類似する処理を実行することもでき、ここで詳細に説明しない。

本開示は、分類のためのニューラルネットワークのトレーニング装置をさらに提供する。図２１は、本開示の実施例によるトレーニング装置２１００の例示的なブロック図を示す。

図２１に示すように、トレーニング装置２１００は、サンプル選択モジュール２１０１、特徴抽出モジュール２１０２、類似度取得モジュール２１０３、予測モジュール２１０４、及びパラメータ更新モジュール２１０５を含む。これらのモジュールは、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせによって実現することができる。

いくつかの実施例では、サンプル選択モジュール２１０１は、トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するように構成される。特徴抽出モジュール２１０２は、検出サンプルの検出サンプル特徴を抽出するし、参照サンプルセットのうちの各参照サンプルの参照サンプル特徴を抽出するように構成される。

いくつかの実施例では、類似度取得モジュール２１０３は、前記検出サンプル特徴と各参照サンプル特徴との類似度を取得し、各参照サンプルのカテゴリについて、前記類似度の平均値を算出するように構成される。

いくつかの実施例では、予測モジュール２１０４は、前記類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するように構成される。

いくつかの実施例では、パラメータ更新モジュール２１０５は、第１の損失関数を使用して前記ニューラルネットワークのパラメータを更新するように構成される。

本開示の実施例では、トレーニング装置２１００は、上記のトレーニング方法３００、５００、及び１０００に関する類似する処理を実行することもできるので、ここでは詳細に説明しない。

本開示の実施例は、分類のための電子機器をさらに提供する。図２２は、本開示の実施例によるトレーニング方法と分類方法を実現できる電子機器２２００の例示的なブロック図を示す。

図２２に示すように、本実施例に係る電子機器は、プロセッサ２２１０、記憶部２２２０、通信部２２３０、入力／出力部２２４０、及びディスプレイ部２２５０を含み、これらの部分は、Ｉ／Ｏインターフェース２２６０に結合される。

プロセッサ２２１０は、マイクロプロセッサなどのプログラム制御装置であり、例えば、電子機器にインストールされたプログラムに従って動作する。記憶部２２２０は、例えば、ＲＯＭ又はＲＡＭなどの記憶素子である。プロセッサ２２１０などにより実行されるプログラムが記憶部２２２０に記憶される。通信部２２３０は、例えば、無線ＬＡＮモジュールなどの通信インターフェースである。入力／出力部２２４０は、例えば、ＨＤＭＩ（登録商標）（ＨＤマルチメディアインターフェース）ポート、ＵＳＢ（ユニバーサルシリアルバス）ポート、ＡＵＸ（アシスト）ポートなどの入力／出力ポートである。ディスプレイ部２２５０は、例えば、液晶ディスプレイや有機ＥＬ(エレクトロルミネッセンス)ディスプレイなどのディスプレイである。

図２２に示す電子機器は、本開示で開示されるトレーニング方法及び分類方法を実現するために用いられる。例えば、本開示の実施例による分類方法は、コンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、非一時的なコンピュータ読み取り可能な媒体に搭載されるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、上記の分類方法を実行するためにプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部２２３０を介してネットワークからダウンロードおよびインストールされてもよいし、記憶部２２２０からインストールされてもよい。当該コンピュータプログラムが電子機器によって実行されると、本開示の実施例により提供される分類方法又は限定方法で限定された機能を実行することができる。当該分類方法及びトレーニング方法は、既に上記の図面を組み合わせて詳細に説明したので、ここでは詳細に説明しない。

本開示の実施例は、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。図２３は、本開示のトレーニング方法と分類方法を実現するためのコンピュータ読み取り可能な記憶媒体２３００の概略図を示す。ここで、コンピュータ読み取り可能な記憶媒体２３００にコンピュータプログラム命令２３０１が記憶されており、ここで、コンピュータプログラム命令２３０１は、プロセッサによって実行されると、本開示の実施例により提供される分類方法及びトレーニング方法を実行する。

上記の説明において、本発明は、実施例に基づいて説明されている。本実施例は例示的なものにすぎず、本実施例の構成要素と処理の組み合わせを様々な方式で変更することができ、このような変更も本発明の範囲内であることを当業者は理解することができる。

Claims

分類方法であって、
検出サンプルの検出サンプル特徴を抽出するステップと、
複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するステップであって、各グループの参照サンプルは、同じカテゴリを有するステップと、
前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップと、
各グループの参照サンプルについて、前記類似度の平均値を算出するステップと、
前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、を含む、
ことを特徴とする、分類方法。
前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得するステップは、
前記複数の参照サンプル特徴のうちの各参照サンプル特徴のサンプル分布分散を算出するステップと、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、
前記特徴距離に基づいて、前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、を含む、
ことを特徴とする、請求項１に記載の分類方法。
前記特徴距離は、ユークリッド距離及びコサイン距離のうちの１つ又は複数を含む、
ことを特徴とする、請求項２に記載の分類方法。
前記分類方法は、
ｓｏｆｔｍａｘ活性化関数又はｓｉｇｍｏｉｄ活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が［０，１］の範囲内になるようにするステップと、
正規化された類似度の平均値が最大になるグループのカテゴリを、前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む、
ことを特徴とする、請求項１に記載の分類方法。
前記分類方法は、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離に第１の係数を乗算して、拡大された特徴距離を取得するステップと、
前記拡大された特徴距離に基づいて、前記検出サンプルと前記各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と前記各参照サンプル特徴との類似度として算出するステップと、をさらに含む、
ことを特徴とする、請求項２に記載の分類方法。
前記分類方法は、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離の理論的な最大値及び最小値に基づいて、前記第１の係数の値の範囲を算出するステップをさらに含む、
ことを特徴とする、請求項５に記載の分類方法。
前記複数グループの参照サンプルは、少なくとも２つグループの参照サンプルを含み、各グループの参照サンプルは、少なくとも２つの参照サンプルを含む、
ことを特徴とする、請求項１から６のいずれかに記載の分類方法。
分類のためのニューラルネットワークのトレーニング方法であって、
トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップと、
検出サンプルの検出サンプル特徴を抽出するステップと、
参照サンプルセットうちの各参照サンプルの参照サンプル特徴を抽出するステップと、
前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップと、
類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するステップと、
第１の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、を含む、
ことを特徴とする、分類のためのニューラルネットワークのトレーニング方法。
前記トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するステップは、
前記トレーニングデータセットからＮ個のカテゴリを選択し、前記Ｎ個のカテゴリの各カテゴリからＫ個のトレーニングサンプルを選択して前記参照サンプルセットを構成するステップと、
前記Ｎ個のカテゴリから前記参照サンプルセットと重複しないトレーニングサンプルを検出サンプルとして選択するステップと、を含む、
ことを特徴とする、請求項８に記載の分類のためのニューラルネットワークのトレーニング方法。
前記検出サンプル特徴と各参照サンプル特徴との類似度を取得するステップは、
前記参照サンプルセットうちの各参照サンプルの参照サンプル特徴のサンプル分布分散を算出するステップと、
前記検出サンプル特徴と前記各参照サンプル特徴のサンプル分布分散との特徴距離を算出するステップと、
前記特徴距離に基づいて前記検出サンプルと各参照サンプルとが同じカテゴリに属する確率を、前記検出サンプル特徴と各参照サンプル特徴との類似度として算出するステップと、を含む、
ことを特徴とする、請求項８に記載の分類のためのニューラルネットワークのトレーニング方法。
前記第１の損失関数は、バイナリ交差エントロピー損失関数であり、前記第１の損失関数の第１の損失値は、前記検出サンプルの実際カテゴリと前記検出サンプルの予測カテゴリとの差を示す、
ことを特徴とする、請求項８に記載の分類のためのニューラルネットワークのトレーニング方法。
前記特徴距離は、ユークリッド距離及びコサイン距離のうちの１つ又は複数を含む、
ことを特徴とする、請求項８に記載の分類のためのニューラルネットワークのトレーニング方法。
前記トレーニング方法は、
ｓｏｆｔｍａｘ活性化関数又はｓｉｇｍｏｉｄ活性化関数を使用して前記類似度の平均値を正規化して、正規化された類似度の平均値が［０，１］の範囲内になるようにするステップと、
正規化された類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するステップと、をさらに含む、
ことを特徴とする、請求項８に記載の分類のためのニューラルネットワークのトレーニング方法。
前記トレーニング方法は、
前記第１の損失関数の第１の損失値が第１の閾値より大きい場合、前記ニューラルネットワークに対して反復的にトレーニングするステップをさらに含む、
ことを特徴とする、請求項１１から１３のいずれかに記載の分類のためのニューラルネットワークのトレーニング方法。
前記トレーニング方法は、
前記トレーニングデータセットから消去サンプルを選択するステップと、
前記消去サンプルの消去サンプル特徴を抽出するステップと、
前記検出サンプル特徴と前記消去サンプル特徴との第１の特徴距離を取得するステップと、
前記検出サンプルと同じカテゴリに属するＫ個の参照サンプルの参照サンプル特徴について平均値を求めて、参照サンプル特徴中心を取得するステップと、
前記検出サンプル特徴と前記参照サンプル特徴中心との第２の特徴距離を取得するステップと、
前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップと、をさらに含む、
ことを特徴とする、請求項８に記載の分類のためのニューラルネットワークのトレーニング方法。
前記検出サンプルと前記Ｋ個の参照サンプルとは同じ第１の属性を有し、
前記検出サンプルと前記消去サンプルとは同じ第２の属性を有し、
前記第１の属性は前記第２の属性とは異なる、
ことを特徴とする、請求項１５に記載の分類のためのニューラルネットワークのトレーニング方法。
前記第２の損失関数は、コサイン距離損失関数であり、
前記第１の特徴距離は、前記検出サンプル特徴と前記消去サンプル特徴とのコサイン距離に対応し、
前記第２の特徴距離は、前記検出サンプル特徴と前記参照サンプル特徴中心とのコサイン特徴距離に対応する、
ことを特徴とする、請求項１５に記載の分類のためのニューラルネットワークのトレーニング方法。
前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、
前記第１の特徴距離が第２の閾値より大きく、且つ前記第２の特徴距離が第３の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む、
ことを特徴とする、請求項１５に記載の分類のためのニューラルネットワークのトレーニング方法。
前記第１の特徴距離と前記第２の特徴距離とに基づいて、第２の損失関数を使用して前記ニューラルネットワークのパラメータを更新するステップは、
前記第１の特徴距離が前記第２の閾値とオフセットとの合計より大きく、且つ前記第２の特徴距離が前記第３の閾値より小さい場合、前記ニューラルネットワークに対して反復的にトレーニングすることを停止するステップを含む、
ことを特徴とする、請求項１８に記載の分類のためのニューラルネットワークのトレーニング方法。
分類装置であって、
特徴抽出モジュールと、類似度取得モジュールと、カテゴリ決定モジュールと、を含み、
当該特徴抽出モジュールは、
検出サンプルの検出サンプル特徴を抽出し、
複数グループの参照サンプルのうちの複数の参照サンプルの複数の参照サンプル特徴を抽出するように構成され、各グループの参照サンプルは、同じカテゴリを有し、
当該類似度取得モジュールは、
前記検出サンプル特徴と前記複数の参照サンプル特徴のうちの各参照サンプル特徴との類似度を取得し、
各グループの参照サンプルについて、前記類似度の平均値を算出するように構成され、
当該カテゴリ決定モジュールは、前記類似度の平均値が最大になるグループのカテゴリを前記検出サンプルが属するカテゴリとして決定するように構成される、
ことを特徴とする分類装置。
分類のためのニューラルネットワークのトレーニング装置であって、
トレーニングデータセットから参照サンプルセットと検出サンプルとを選択するように構成されるサンプル選択モジュールと、
検出サンプルの検出サンプル特徴を抽出し、参照サンプルセットうちの各参照サンプルの参照サンプル特徴を抽出するように構成される特徴抽出モジュールと、
前記検出サンプル特徴と各参照サンプル特徴との類似度を取得し、各参照サンプルのカテゴリについて、前記類似度の平均値を算出するように構成される類似度取得モジュールと、
前記類似度の平均値が最大になるカテゴリを前記検出サンプルの予測カテゴリとして決定するように構成される予測モジュールと、
第１の損失関数を使用して前記ニューラルネットワークのパラメータを更新するように構成されるパラメータ更新モジュールと、を含む、
ことを特徴とするトレーニング装置。
電子機器であって、
プロセッサと、
１つ又は複数のコンピュータプログラムモジュールが記憶されているメモリと、を含み、
前記１つ又は複数のコンピュータプログラムモジュールは、前記プロセッサによって実行される時、請求項１～７のいずれかに記載の分類方法と、請求項８～１９のいずれかに記載の分類のためのニューラルネットワークのトレーニング方法を実行するように構成される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令がプロセッサによって実行される時、請求項１～７のいずれかに記載の分類方法と、請求項８～１９のいずれかに記載の分類のためのニューラルネットワークのトレーニング方法が実行される、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。