JP7396467B2

JP7396467B2 - 学習装置、分類装置、学習方法、分類方法、および、プログラム

Info

Publication number: JP7396467B2
Application number: JP2022514878A
Authority: JP
Inventors: 関利金井; 真徳山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2023-12-12
Anticipated expiration: 2040-04-13
Also published as: JPWO2021210042A1; WO2021210042A1

Description

本発明は、学習装置、分類装置、学習方法、分類方法、および、プログラムに関する。

深層学習、ディープニューラルネットワークは、画像認識や音声認識などで大きな成功を収めている。例えば、深層学習を使った画像認識では、深層学習の多数の非線形関数を含んだモデルに画像を入力すると、その画像が何を写しているのかという分類結果を出力する。特に、畳み込みニューラルネットワークとＲｅＬＵ（Rectified Linear Unit）とは、画像認識において頻繁に使用される技術である。

しかしながら、悪意ある攻撃者が、モデルに最適なノイズを入力画像に加えると、小さなノイズで簡単に深層学習を誤分類させることができる（例えば、非特許文献１参照）。これは、敵対的攻撃と呼ばれており、例えば、ＦＧＳＭ（Fast Gradient Sign Method）やＰＧＤ（Projected Gradient Descent）等の攻撃方法が報告されている。

Christian Szegedy, et al, "Intriguing properties of neural networks", arXiv preprint: 1312. 6199, 2013. Tianyu Pang, et al. "RETHINKING SOFTMAX CROSS-ENTROPY LOSS FOR ADVERSARIAL ROBUSTNESS ", ICLR, 2020. Sibylle Hess, et al. "Softmax-based Classication is k-means Clustering: Formal Proof, Consequences for Adversarial Attacks, and Improvement through Centroid Based Tailoring ", arXiv, 2020.

このように、深層学習により得られたモデルが敵対的攻撃に脆弱であり、入力されたデータを誤分類してしまうという問題があった。そこで、本発明は、前記した問題を解決し、敵対的攻撃に対してロバストなモデルを作成することを課題とする。

前記した課題を解決するため、本発明は、深層学習により入力データのクラス分類を行う数理モデルについて、前記数理モデルの最終層における重みから各クラスの中心点を計算する中心点計算部と、前記数理モデルの最終層への入力データが、前記各クラスの中心点に近づくよう前記数理モデルのパラメータの更新を行う学習部とを備えることを特徴とする。

本発明によれば、敵対的攻撃に対してロバストなモデルを作成することができる。

図１は、深層学習のモデルを説明する図である。図２は、深層学習のモデルを有する分類器の従来の学習について説明するフローチャートである。図３は、学習装置の構成の一例を示すブロック図である。図４は、学習装置の処理手順をフローチャートである。図５は、学習装置の処理手順の例を示すフローチャートである。図６は、プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

なお、以下では、例えばＡがベクトルである場合には“ベクトルＡ”と表記し、例えばＡが行列である場合には“行列Ａ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばベクトルＡの関数ｆは、ｆ（ベクトルＡ）と表記する。また、ベクトル、行列又はスカラーであるＡに対し、“－Ａ”と記載する場合は「“Ａ”の直上に“－”が記された記号」と同等であるとする。また、ベクトル又は行列であるＡに対し、ＡＴはＡの転置を表す。

また、以下に示す各数式において大文字の太字は原則として行列を表し（Ｚを除く）、小文字の太字は列ベクトルを表し、行ベクトルは転置を使って表す。

さらに、本実施形態の学習装置が学習対象とする数理モデルは深層学習を用いて画像認識を行うモデルである場合を例に説明するが、深層学習を用いて入力データの識別を行うモデルであればこれに限定されない。

［深層学習のモデル］
まず、深層学習のモデルについて説明する。図１に示すように、深層学習のモデルは信号の入る入力層、入力層からの信号を様々に変換する１層または複数の中間層、及び、中間層の信号を確率などの出力に変換する出力層からなる。

入力層には入力データが入力される。また、出力層からは各クラスの確率が出力される。例えば、入力データは、所定の形式で表現された画像データである。また、例えば、クラスが車、船、犬、猫についてそれぞれ設定されている場合、出力層からは、入力データの元になった画像に写っているものが車である確率、船である確率、犬である確率及び猫である確率がそれぞれ出力される。

［従来の分類器の学習方法］
図２を用いて、深層学習モデルを有する分類器（分類部）の従来の学習について説明する。

図２に示すように、従来の学習処理では、予め用意したデータセット（学習用データ）からランダムに入力とラベルとを選択し、選択した入力を分類部に印加する（Ｓ１）。そして、従来の学習処理では、分類部の出力を計算し、その出力とデータセットのラベルとを使用して損失関数を計算する（Ｓ２）。

従来の学習処理では、計算される損失関数が小さくなるように学習し、損失関数の勾配を使って分類部のパラメータを更新する（Ｓ３）。損失関数は、通常、分類部の出力とラベルとが一致するほど小さくなる関数を設定するため、これにより分類部が入力のラベルを分類できるようになる。

そして、従来の学習処理では、別途用意したデータセットを正しく分類できるかどうかなどを評価基準とする。従来の学習処理では、評価基準を満たさない場合には（Ｓ４：Ｎｏ）、Ｓ１に戻り学習を継続し、評価基準を満たす場合には（Ｓ４：Ｙｅｓ）、学習を終了する。

［深層学習による画像認識］
分類処理の一例として、深層学習による画像認識処理について説明する。ここで、深層学習において、画像ｘ∈Ｒ^{Ｃ×Ｈ×Ｗ}を認識し、Ｍ個のラベルから、その画像のラベルｙを求める問題を考える。ここで、ｘは三次元の配列で表され、Ｒは行列で表される。Ｃは画像のチャネル（ＲＧＢ式の場合は３チャネル）、Ｈは縦の大きさ、Ｗは横の大きさとする。

このとき、深層学習のモデルの出力ｆ（ｘ，θ）∈Ｒ^Ｍは、各ラベルに対するスコアを表し、式（１）によって得られる最も大きなスコアを持つ出力の要素が、深層学習の認識結果である。ここで、ｆ，θは、列ベクトルで表される。

画像認識は、クラス分類の一つであり、分類を行うｆを分類器と呼ぶ。ここで、θは、深層学習のモデルのパラメータであり、このパラメータは、事前に用意したＮ個のデータセット｛（ｘ_ｉ，ｙ_ｉ）｝，ｉ＝１，…，Ｎから学習する。この学習では、クロスエントロピーなどの、ｙ_ｉ＝ｍａｘ_ｊｆ_ｊ（ｘ）と正しく認識できるほど小さな値となるような損失関数Ｌ（ｘ，ｙ，θ）を設定し、式（２）に示す最適化を行ってθを求める。

最適化では、データセットから（ｘ_ｉ，ｙ_ｉ）をサンプリングしながら、損失関数の勾配δＬ（ｘ_ｉ，ｙ_ｉ，θ）／δθを計算し、以下の式（３）の計算を繰り返して行う。ここで、ηは、学習率と呼ばれるパラメータである。

［敵対的攻撃］
深層学習のモデルによる認識は脆弱性を持っており、敵対的攻撃によって誤認識させることができる。敵対的攻撃は、式（４）に示す最適化問題で定式化される。

式（４）における||・||_ｐはｌ_ｐノルムであり、ｐとしてｐ＝２やｐ＝∞が主に用いられる。これは誤って認識する、ノルムの最も小さなノイズδを求めるという問題である。敵対的攻撃としては、例えば、ＦＧＳＭやＰＧＤなど、深層学習のモデルの勾配を使った攻撃方法が提案されている。

[重み行列から計算される各クラスの中心点]
本実施形態における、深層学習のモデルの重み行列から計算される各クラスの中心点について説明する。本実施形態の学習装置は、上記の深層学習のモデルにおける最終層の重みを考慮して、式（１）を以下の式（５）とする。

ここで式（５）における、行列Ｗ∈Ｒ^ｄ×Ｍは深層学習のモデルにおける最終層の重みである。ｇ（ｘ，θ）は深層学習のモデルへの入力ｘに対応した最終層における入力である。softmaxはソフトマックス関数である。

式（５）において、重み行列をＷ＝[ｗ_１，…，ｗ_Ｍ]と各列ベクトルｗ_ｉ∈Ｒ^ｄで表し、ソフトマックス関数が大小関係を変えないことを考慮すると、式（５）は、以下の式（６）となる。

ｄ≧Ｍ－１とし、以下の式（７）を満たすベクトルｖ∈Ｒ^Ｍが存在すると仮定すると、式（６）は、式（８）のようになる。

ただし、式（８）におけるベクトルＺ_ｊ＝ｗ_ｊ＋ｖとし、式（７）から||Ｚ_ｊ||がｊによらないことを使った。これは深層学習のモデルの最終層の入力ｇ（ｘ，θ）に対して最も近いベクトルＺ_ｊを求め、そのｊをクラス分類結果とするものであり、ベクトルＺ_ｊをクラスｊの中心点とみなすことができる。以上の議論において、深層学習のモデルに関しては特に特別な構造を限定していないため、通常の深層学習のモデルに広く使える議論である。

［学習装置］
次に、本実施形態の学習装置について説明する。学習装置は、前述の深層学習のモデルにおける最終層の重みから各クラスの中心点を計算する。そして、学習装置は、深層学習のモデルの最終層への入力データが、上記の各クラスの中心点に近づくように、深層学習のモデルのパラメータを最適化する。

[構成]
図３を用いて、本実施形態の学習装置の構成を説明する。図３に示す学習装置１０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、学習装置１０は、ＮＩＣ（Network Interface Card）等を有し、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

学習装置１０は、分類部１１と学習処理部１２とを有する。分類部１１は、深層学習のモデルであるモデル１１１を有する。分類部１１は、モデル１１１を用いて入力データのクラス分類を行う。モデル１１１は、例えば、入力データのクラス分類を行うモデルであって、ニューラルネットワークを適用したモデルである。分類部１１は、例えば、入力データをニューラルネットワークの入力層に入力し、ニューラルネットワークの出力層から、入力データが各クラスに分類される確率を出力する。

学習処理部１２は、学習用データを用いてモデル１１１の学習を行う。このとき学習処理部１２は、モデル１１１の最終層への入力データが、上記の各クラスの中心点に近づくよう、モデル１１１のパラメータを最適化する。この学習処理部１２は、中心点計算部１２１と、学習部１２２とを備える。

中心点計算部１２１は、モデル１１１の最終層の重みから各クラスの中心点を計算する。例えば、中心点計算部１２１は、モデル１１１の最終層における重みを示す行列Ｗを巡回シフトさせた行列^Ｗを作成し、行列Ｗと行列^Ｗとを用いて各クラスの中心点を計算する。

例えば、まず、中心点計算部１２１は、重み行列Ｗを巡回シフトさせた行列^Ｗ=［ｗ_２，ｗ_３，…，ｗ_Ｍ，ｗ_１］を作成する。次に、中心点計算部１２１は、行列Ｗの各列ベクトルのノルムを並べたベクトルｂ＝［||ｗ_１||^２，||ｗ_２||^２，||ｗ_３||^２，…，||ｗ_Ｍ||^２］^Ｔと同様に、行列^Ｗの各列ベクトルのノルムを並べたベクトル^ｂ＝［||ｗ_２||^２，||ｗ_３||^２，…，||ｗ_Ｍ||^２，||ｗ_１||^２］^Ｔを作成する。そして、中心点計算部１２１は、以下の式（９）を満たすベクトルｖを計算する。

ここで、ｄ＞Ｍ－１の場合、ベクトルｖは一意に定まらない。このような場合、中心点計算部１２１は、例えば、擬似逆行列を用いてベクトルｖを計算する（式（１０））。

中心点計算部１２１は、上記のようにしてベクトルｖを計算すると、計算したベクトルｖを用いて、各クラスの中心点であるベクトルＺ_ｊ＝ｗ_ｊ＋ｖを計算する。

学習処理部１２は、学習用データを用いてモデル１１１を学習する。このとき、学習部１２２は、モデル１１１の最終層への入力データが、中心点計算部１２１により計算された各クラスの中心点に近づくように、モデル１１１のパラメータを最適化する。例えば、学習部１２２は、最終層への入力データと各クラスの中心点との差分を損失関数とし、損失関数の値ができるだけ小さくなるようモデル１１１のパラメータを更新する。

例えば、学習部１２２は、中心点計算部１２１により計算された各クラスの中心点であるベクトルＺ_ｊ＝ｗ_ｊ＋ｖを使って、以下の式（１１）によりモデル１１１を学習する。

つまり、学習部１２２は、損失関数Ｌを||ｇ（ｘ，θ）－Ｚ_ｙ||^２とし、この損失関数Ｌができるだけ小さくなるようモデル１１１のパラメータを更新する。なお、学習用データのｘに対してラベルｙが与えられているので、モデル１１１の最終層の重み行列Ｗは固定する。学習部１２２が、学習用データを用いてモデル１１１を学習する際、モデル１１１の最終層の入力ｇ（ｘ，θ）を各クラスの中心点に集めるようにすることで、ノイズに対してロバストなモデル１１１を作成することができる。

なお、上記の学習方法は、一般によく用いられているソフトマックスクロスエントロピーを最小化する学習結果とクラス分類の結果にも適用可能である。例えば、学習処理部１２は、事前にソフトマックスクロスエントロピーにより学習されたモデルを対象に、上記の学習方法を用いて再学習を行ってもよい。

また、学習処理部１２により学習されたモデル１１１は、学習装置１０の分類部１１により用いられてもよいし、他の装置（分類装置）により用いられてもよい。

[処理手順]
次に、図４を用いて学習装置１０の処理手順を説明する。まず、学習装置１０の中心点計算部１２１は、モデル１１１の最終層の重み行列から各クラスの中心点を計算する（Ｓ１１）。次に、学習部１２２は、予め用意した学習用データのデータセットからランダムに選択した入力をモデル１１１に印加する（Ｓ１２）。そして、学習部１２２は、モデル１１１の最終層の入力を計算し、それとデータセットのラベルｙに対応する中心点を使用して、損失関数（例えば、上記の損失関数Ｌ）を計算する（Ｓ１３）。そして、学習部１２２は、Ｓ１３で計算した損失関数の勾配を使って、モデル１１１のパラメータを更新する（Ｓ１４）。

Ｓ１４の後、学習処理部１２は、パラメータの更新後のモデル１１１が評価基準を満たすか否かを判定する（Ｓ１５）。この評価基準は、例えば、パラメータの更新後のモデル１１１により、分類部１１が別途用意されたデータセットを正しく分類できるか否か等である。Ｓ１５で学習部１２２が、パラメータの更新後のモデル１１１は評価基準を満たさないと判定した場合（Ｓ１５：Ｎｏ）、Ｓ１２に戻り学習を継続する。一方、Ｓ１５で学習処理部１２が、パラメータの更新後のモデル１１１は評価基準を満たすと判定した場合（Ｓ１５：Ｙｅｓ）、学習を終了する。

次に、図５を用いて学習装置１０の処理手順の例を説明する。まず、学習装置１０の中心点計算部１２１は、モデル１１１の最終層の重み行列からベクトルｖと各クラスの中心点Ｚ_ｊを計算する（Ｓ２１）。例えば、中心点計算部１２１は、前記した式（９）または式（１０）を用いて、モデル１１１の最終層の重み行列Ｗからベクトルｖを計算する。そして、中心点計算部１２１は、計算したベクトルｖを用いて、各クラスの中心点を示すベクトルＺ_ｊ＝ｗ_ｊ＋ｖを計算する。

Ｓ２１の後、学習部１２２は、予め用意した学習用データのデータセットからランダムに選択した入力をモデル１１１に印加する（Ｓ２２）。そして、学習部１２２は、モデル１１１の最終層の入力を計算し、それとデータセットのラベルｙに対応する中心点Ｚ_ｙを使用して、損失関数（例えば、前記した||ｇ（ｘ，θ）－Ｚ_ｙ||^２）を計算する（Ｓ２３）。そして、学習部１２２は、Ｓ２３で計算した損失関数の勾配を使って、モデル１１１のパラメータθを更新する（Ｓ２４）。

Ｓ２４の後、学習処理部１２は、パラメータθの更新後のモデル１１１が評価基準を満たすか否かを判定する（Ｓ２５）。Ｓ２５で学習部１２２が、パラメータθの更新後のモデル１１１は評価基準を満たさないと判定した場合（Ｓ２５：Ｎｏ）、Ｓ２２に戻り、学習を継続する。一方、Ｓ２５で学習処理部１２が、パラメータθの更新後のモデル１１１は評価基準を満たすと判定した場合（Ｓ２５：Ｙｅｓ）、学習を終了する。

このようにすることで学習装置１０は、敵対的攻撃のようなノイズが加わってもロバストなモデル１１１を作成することができる。その結果、モデル１１１を用いたデータの分類における誤分類を低減することができる。

なお、学習装置１０は、例えば、以下のようにしてモデル１１１の学習を行ってもよい。

前述の通り、ｄ＞Ｍ－１の場合、ベクトルｖは一意に定まらない。そこで、中心点計算部１２１は、ベクトルｖを計算する代わりに、行列ＷをＱＲ分解する（式（１２））。

なお、式（１２）における行列Ｑ∈Ｒ^Ｍ×Ｍは、直交行列であり、行列Ｗ´∈Ｒ^ｄ×Ｍは、上三角行列である。中心点計算部１２１は、最終層を、ｆ＝ｓｏｆｔｍａｘ（ｇ^ＴＷ）＝ｓｏｆｔｍａｘ（ｇ^ＴＷ´Ｑ）により、ｈ^Ｔ＝ｇ^ＴＷ´という新しい層とする。ここで、行列Ｑは直交行列であるため、行列Ｑ＝[ｑ_１，…，ｑ_Ｍ]について、以下の式（１３）が成り立つ。

よって、式（６）は、以下の式（１４）のようになるので、中心点計算部１２１は、各クラスの中心点であるベクトルＺ_ｊはＺ_ｊ＝ｑ_ｊとなる。学習部１２２は、このベクトルＺ_ｊ＝ｑ_ｊを用いて、式（１１）によりモデル１１１の学習を行う。

なお、学習装置１０が上記のようにして各クラスの中心点を計算することにより、前述のベクトルｖを用いる方法よりも、中心点同士が離れた中心点を求めることができる。その結果、学習装置１０はベクトルｖを用いる場合よりも、ロバストなモデル１１１を作成することができる。

［実施形態のシステム構成について］
図３に示した学習装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、学習装置１０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、学習装置１０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵおよびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、学習装置１０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
また、上記の実施形態で述べた学習装置１０の機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムをコンピュータに実行させることにより、コンピュータを学習装置１０として機能させることができる。ここで言うコンピュータには、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、コンピュータにはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）等がその範疇に含まれる。また、学習装置１０の機能を、クラウドサーバに実装してもよい。

図６を用いて、上記のプログラム（プログラム）を実行するコンピュータの一例を説明する。図６に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図６に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した記憶部１３は、例えばハードディスクドライブ１０９０やメモリ１０１０に装備される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０学習装置
１１分類部
１２学習処理部
１１１モデル
１２１中心点計算部
１２２学習部

Claims

深層学習により入力データのクラス分類を行う数理モデルについて、前記数理モデルの最終層における重みから各クラスの中心点を計算する中心点計算部と、
前記数理モデルの最終層への入力データが、前記各クラスの中心点に近づくよう前記数理モデルのパラメータの更新を行う学習部と
を備えることを特徴とする学習装置。
前記学習部は、
前記数理モデルの最終層への入力データと前記各クラスの中心点との差分を損失関数とし、前記損失関数の値ができるだけ小さくなるよう前記数理モデルのパラメータを更新する
ことを特徴とする請求項１に記載の学習装置。
前記学習部は、
前記損失関数の勾配を用いて、前記数理モデルのパラメータθを更新する
ことを特徴とする請求項２に記載の学習装置。
前記中心点計算部は、
前記数理モデルの最終層における重みを示す行列と、前記行列を巡回シフトさせた行列とを用いて前記各クラスの中心点を計算する
ことを特徴とする請求項１に記載の学習装置。
前記中心点計算部は、
前記数理モデルの最終層における重みを示す行列をＱＲ分解した行列を用いて前記各クラスの中心点を計算する
ことを特徴とする請求項１に記載の学習装置。
深層学習により入力データのクラス分類を行う数理モデルについて、前記数理モデルの最終層への入力データを、前記数理モデルの最終層における重みから計算された各クラスの中心点に近づけるよう学習された数理モデルを用いて、入力データのクラス分類を行う分類部を備えることを特徴とする分類装置。
学習装置により実行される数理モデルの学習方法であって、
深層学習により入力データのクラス分類を行う前記数理モデルについて、前記数理モデルの最終層における重みから各クラスの中心点を計算する工程と、
前記数理モデルの最終層への入力データが、前記各クラスの中心点に近づくよう前記数理モデルのパラメータの更新を行う工程と
を含むことを特徴とする学習方法。
分類装置により実行される入力データの分類方法であって、
深層学習により入力データのクラス分類を行う数理モデルについて、前記数理モデルの最終層への入力データが、前記数理モデルの最終層における重みから計算された各クラスの中心点に近づくよう学習された数理モデルを用いて、入力データのクラス分類を行う工程を含むことを特徴とする分類方法。
請求項１～請求項５のいずれか１項に記載の学習装置または請求項６に記載の分類装置としてコンピュータを機能させるためのプログラム。