JP7159955B2

JP7159955B2 - 分類装置、分類方法及び分類プログラム

Info

Publication number: JP7159955B2
Application number: JP2019075317A
Authority: JP
Inventors: 関利金井; 大志高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2022-10-25
Anticipated expiration: 2039-04-11
Also published as: US20220164604A1; WO2020209087A1; JP2020173624A

Description

本発明は、分類装置、分類方法及び分類プログラムに関する。

深層学習、ディープニューラルネットワークは、画像認識や音声認識などで大きな成功を収めている（例えば、非特許文献１参照）。例えば、深層学習を使った画像認識では、深層学習の多数の非線形関数を含んだモデルに画像を入力すると、その画像が何を写しているのかという分類結果を出力する。

しかしながら、悪意ある攻撃者が、モデルに最適なノイズを入力画像に加えると、小さなノイズで簡単に深層学習を誤分類させることができる（例えば、非特許文献２参照）。これは敵対的攻撃と呼ばれており、ＦＧＳＭ（Fast Gradient Sign Method）やＰＧＤ（Projected Gradient Descent）などの攻撃方法が報告されている（例えば、非特許文献３，４参照）。

この敵対的攻撃に対して頑健な性質をモデルに持たせるためには、ラベルとの相関の強い入力の要素のみを用いればよいことが示唆されている（例えば、非特許文献５参照）。

Ian Goodfellow, Yoshua Bengio, and Aaron Courville, "Deep learning", MIT press, 2016. Christian Szegedy, et al, "Intriguing properties of neural networks", arXiv preprint: 1312. 6199, 2013. Ian J. Goodfellow, et al., "EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES", arXiv preprint: 1412.6572, 2014. Aleksander Madry, et al., "Towards Deep Learning Models Resistant to Adversarial Attacks", arXiv preprint: 1706.06083, 2017. Dimitris Tsipras, et al., "Robustness May Be at Odds with Accuracy", arXiv preprint: 1805.12152, 2018.

このように、深層学習が敵対的攻撃に脆弱で誤分類してしまうという問題があった。また、深層学習が複雑な非線形関数で構成されているため、何かを分類した際の判断理由が不明瞭であるという問題があった。

本発明は、上記に鑑みてなされたものであって、頑健であり、入力の中でどの要素を使用してクラス分類を行ったか解釈が容易である分類装置、分類方法及び分類プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る分類装置は、クラス分類を行うモデルであって深層学習モデルである第１のモデルを用いて、クラス分類を行う分類部と、分類部の前段に設けられ、教師データの入力に対するラベルと第１のモデルの出力との関係を評価する損失関数と、分類部への入力の大きさと、の和を最小化する第２のモデルを用いて、第１のモデルの入力を選別する前処理部と、を有することを特徴とする。

本発明によれば、頑健であり、入力の中でどの要素を使用してクラス分類を行ったか解釈が容易である。

図１は、深層学習モデルを説明する図である。図２は、従来の分類器の学習処理の処理手順を示すフローチャートである。図３は、実施の形態に係る分類装置の構成の一例を示すブロック図である。図４は、実施の形態におけるモデル構造の概要を説明する図である。図５は、マスクモデルに対する処理の流れについて説明する図である。図６は、実施の形態における学習処理の処理手順を示すフローチャートである。図７は、プログラムが実行されることにより、分類装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［深層学習モデル］
まず、深層学習モデルについて説明する。図１は、深層学習モデルを説明する図である。図１に示すように、深層学習のモデルは信号の入る入力層、入力層からの信号を様々に変換する１層または複数の中間層、及び、中間層の信号を確率などの出力に変換する出力層からなる。

入力層には入力データが入力される。また、出力層からは各クラスの確率が出力される。例えば、入力データは、所定の形式で表現された画像データである。また、例えば、クラスが車、船、犬、猫についてそれぞれ設定されている場合、出力層からは、入力データの元になった画像に写っているものが車である確率、船である確率、犬である確率及び猫である確率がそれぞれ出力される。

［従来の分類器の学習方法］
深層学習モデルを有する分類器の従来の学習について説明する。図２は、従来の分類器の学習処理の処理手順を示すフローチャートである。

図２に示すように、従来の学習処理では、予め用意したデータセットからランダムに入力とラベルとを選択し、分類器に入力を印加する（ステップＳ１）。そして、従来の学習処理では、分類器の出力を計算し、その出力とデータセットのラベルとを使用して損失関数を計算する（ステップＳ２）。

従来の学習処理では、計算される損失関数が小さくなるように学習し、損失関数の勾配を使って分類器のパラメータを更新する（ステップＳ３）。損失関数は、通常、分類器の出力とラベルとが一致するほど小さくなる関数を設定するため、これにより分類器が入力のラベルを分類できるようになる。

そして、従来の学習処理では、別途用意したデータセットを正しく分類できるかどうかなどを評価基準とする。従来の学習処理では、評価基準を満たさない場合には（ステップＳ４：Ｎｏ）、ステップＳ１に戻り学習を継続し、評価基準を満たす場合には（ステップＳ４：Ｙｅｓ）、学習を終了する。

［深層学習による画像認識］
分類処理の一例として、深層学習による画像認識処理について説明する。ここで、深層学習において、画像ｘ∈Ｒ^{Ｃ×Ｈ×Ｗ}を認識し、Ｍ個のラベルから、その画像のラベルｙを求める問題を考える。ここで、ｘは列ベクトルで表され、Ｒは行列で表される。Ｃは画像のチャネル（ＲＧＢ式の場合は３チャネル）、Ｈは縦の大きさ、Ｗは横の大きさとする。

このとき、深層学習のモデルの出力ｆ（ｘ，θ）∈Ｒ^Ｍは、各ラベルに対するスコアを表し、式（１）によって得られる最も大きなスコアを持つ出力の要素が、深層学習の認識結果である。ここで、ｆ，θは、列ベクトルで表される。

画像認識は、クラス分類の一つであり、分類を行うｆを分類器と呼ぶ。ここで、θは、深層学習のモデルのパラメータであり、このパラメータは、事前に用意したＮ個のデータセット｛（ｘ_ｉ，ｙ_ｉ）｝，ｉ＝１，・・・，Ｎから学習する。この学習では、クロスエントロピーなどの、ｙ_ｉ＝ｍａｘ_ｊｆ_ｊ（ｘ）と正しく認識できるほど小さな値となるような損失関数Ｌ（ｘ，ｙ，θ）を設定し、式（２）に示す最適化を行ってθを求める。

［敵対的攻撃］
深層学習の認識は脆弱性を持っており、敵対的攻撃によって誤認識させることができる。敵対的攻撃は、式（３）に示す最適化問題で定式化される。

||・||_ｐはｌ_ｐノルムであり、ｐとしてｐ＝２やｐ＝∞が主に用いられる。これは誤って認識する最もノルムの小さなノイズを求めるという問題であり、ＦＧＳＭやＰＧＤなどのモデルの勾配を使った攻撃方法が提案されている。

［相関の強弱と頑健性との関係］
敵対的攻撃に対して頑健な性質をモデルに持たせるためには、ラベルとの相関の強い要素のみを入力として用いればよい。このため、本実施の形態では、入力のうちラベルとの相関の強い要素のみをモデルに入力させるようにすることによって、モデルに頑健性を持たせている。そこで、入力する要素の特徴量に対するラベルとの相関とモデルの頑健性とについて説明する。

次の分類問題を考える。入力ｘ∈Ｒ^ｄ＋１と、ラベルのペア（ｘ，ｙ）が式（４）のような分布Ｄに従うとする。

ただし、Ｎ（ηｙ，１）は、平均ηｙ分散１の正規分布であり、ｐ≧０．５である。また、ｘ_ｉは、入力のｉ番目の要素（特徴量）である。ηは、このｘに対する線形分類器ｆ（ｘ）＝ｓｉｇｎ（ｗ^Ｔｘ）が９９％以上となるのに十分な大きさとし、例えば、η=Θ（１／√ｄ）とする。ｘ_１は、ｙに高い確率ｐでラベルと相関しており、ここでは、ｐ＝０．９５とする。なお、行ベクトルｗはパラメータである。

このとき、通常の最適な線形分類器は、式（５）となる。

このとき、式（６）は、η≧３／√ｄのとき、９９％より大きくなる。

しかしながら、ここで、||δ||_∞＝２ηの敵対的攻撃を加えると，ｘ_ｉ＋δ_ｉ～Ｎ（－ηｙ，１），ｉ＝２，・・・，ｄ＋１とできる。すると、上述のモデルの正答率は１％より小さくなり，敵対的攻撃に脆弱であることが分かる。

一方、式（７）に示す線形分類器について説明する。

εが１より小さいと、通常の正答率及び上記の敵対的攻撃がともにｐの確率となり、ｐ＝０．９５とすると９５％の正答率を双方で達成できる。

以上より、ラベルとの相関が弱いが多数あるｘ_２，・・・，ｘ_ｄ＋１という特徴量を用いると通常の正答率は高くなるが敵対的攻撃に脆弱となることが分かる。一方、ラベルとの相関が強いが一つしかない特徴量ｘ_１のみを使うことで敵対的攻撃に頑健になることが分かる。

このことから、本実施の形態では、モデルへの入力として、ラベルとの相関の弱い要素は使用せず、ラベルとの相関の強い要素のみを用いるようにすることで、敵対的攻撃に対して頑健なモデルを構築する。

［実施の形態］
次に、実施の形態について説明する。本実施の形態では、前述のラベルとの相関の強い要素のみをモデルの入力に使うという考えを援用して、自動的に、ラベルとの相関が強い要素のみが分類器に入力されるように学習するようなマスクモデルを、分類部のモデルの前段に設ける。

図３は、実施の形態に係る分類装置の構成の一例を示すブロック図である。図３に示す分類装置１０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、分類装置１０は、ＮＩＣ（Network Interface Card）等を有し、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

分類装置１０は、前処理部１１と分類部１２と学習部１３とを有する。前処理部１１は、深層学習モデルであるマスクモデル１１１（第２のモデル）を有する。分類部１２は、深層学習モデルであるモデル１２１（第１のモデル）を有する。

前処理部１１は、分類部１２の前段に設けられ、マスクモデル１１１を用いて、モデル１２１の入力を選別する。マスクモデル１１１は、教師データの入力に対するラベルとモデル１１１の出力との関係を評価する損失関数と、分類部１２への入力の大きさと、の和を最小化するモデルである。

分類部１２は、モデル１２１を用いてクラス分類を行う。モデル１２１は、クラス分類を行うモデルであって深層学習モデルである。

学習部１３は、教師データを学習し、損失関数と分類部１２への入力の大きさとの和を最小化するようにモデル１２１及びマスクモデル１１１のパラメータを更新する。学習部１３は、後述するように、二値を取る確率分布であるベルヌーイ分布の近似を用いて損失関数の勾配を求める。

このように、分類装置１０は、教師データの入力に対するラベルとモデル１２１の出力との関係を評価する損失関数と、分類部１２への入力の大きさと、の和を最小化するようにマスクモデル１１１を用いて、ラベルとの相関の強い入力を選別して、分類部１２のモデル１２１に入力する。言い換えると、分類装置１０は、マスクモデル１１１を用いて、ラベルとの相関が弱い不要な入力を、モデル１２１の前段でマスクしている。

［モデル構造の概要］
図４は、実施の形態におけるモデル構造の概要を説明する図である。図４に示すように、分類装置１０では、深層学習の分類器ｆ（・）（モデル１２１）の前段に、入力ｘのうち必要な入力のみを選別するマスクモデルｇ（・）（マスクモデル１１１）を設ける。マスクモデルｇは、入力ｘをマスクして、必要な入力ｘに対しては１を付与し、不要な入力ｘに対しては０を付与する。そして、分類装置１０は、入力ｘとマスクモデルｇ（・）の出力とを乗じた値を、分類器ｆ（・）に入力することによって、式（８）に示す出力を得る。

ここで、列ベクトルｇ（ｘ）の大きさは、Ｈ×Ｗとし、入力の画像サイズと同じ大きさで１チャネルとする。また、式（８）の白丸の中心に点を有する記号は、入力ｘの全てのチャネルに対して、ｇ（ｘ）と要素ごとの積をとる演算とする。

ｇ_ｉ（ｘ）＝０または１とすれば、入寮ｘの必要な画像ピクセルのみを選択するマスクモデルになる。しかしながら、このモデルでは、ステップ関数などの｛０，１｝をとる関数は微分が計算できず、勾配を使って学習する深層学習には適さない。

この問題を解決するため、本実施の形態では、gumbel max trickを使ったベルヌーイ分布の近似を用いる。ベルヌーイ分布Ｂ（・）とは、二値をとる確率分布であり、ベルヌーイ分布を出力とすることで、ｇ_ｉ（ｘ）＝０または１を実現できる。この場合も、ステップ関数と同様に勾配の計算ができないが、式（９）～式（１１）のような近似計算が存在する。

ここで、Ｕは、一様分布である。σはシグモイド関数で微分可能な関数であり、列ベクトルで表される。また、Ｐ（Ｄ_σ（α）＝１）は、パラメータσ（α）をもつベルヌーイ分布Ｂ（σ（α））からサンプルされたＤ_σ（α）が１をとる確率である。Ｐ（Ｇ（α，τ）＝１）は、Ｇ（α，τ）が１をそれぞれとる確率である。Ｕを一様分布からサンプリングしながら計算すれば、Ｇ（α，τ）のαに関する勾配が計算できる。

図５は、マスクモデルに対する処理の流れについて説明する図である。本実施の形態では、この関数を出力とした深層学習のマスクモデルｇ（ｘ）を、分類器ｆの前段に設ける。この結果、ラベルとの相関が強い入力は、分類器ｆの入力として選別され、ラベルとの相関が弱い不要な入力は、モデル１２１の前段でマスクされる。分類装置１０は、分類器ｆの入力として選別された入力に対し、学習中である場合には（ステップＳ１０：Ｙｅｓ）、Gumbel Softmaxを使用し、式（１０）を適用して損失関数の勾配を求め、モデル１２１及びマスクモデル１１１のパラメータを更新する。また、分類装置１０は、学習ではなく（ステップＳ１０：Ｎｏ）、実際に推論する場合、すなわち、分類を行う場合には、分類器ｆの入力として選別された入力に対し、ベルヌーイ分布を用いてクラス分類を行う。

ここで、式（８）に示す分類器ｆの出力を通常通り学習させると、ｇ（ｘ）は、全て１となるように学習してしまい、入力を選別するようにならない。

このため、本実施の形態では、学習時の目的関数を式（１２）とする。

式（１２）の第１項は、教師データの入力に対するラベルとモデル１２１の出力との関係を評価する損失関数である。式（１２）の第２項は、分類部１２への入力の大きさを示す関数であり、ｇが０をとるほど小さくなるような関数である。式（１２）の第２項に対し、たとえば、式（１３）とする。λは、その関数の強さを調整するパラメータである。

このように、式（１２）は、教師データの入力に対するラベルとモデル１２１の出力との関係を評価する損失関数と、分類部１２への入力の大きさと、の和を最小化する関数であり、モデル１２１に適用される。学習部１３は、この式（１２）をマスクモデルｇに学習させて０または１を出力させることによって、分類器ｆに必要な入力をマスクモデルｇに自動的に選別させる。

具体的に、マスクモデルｇが０を出力した場合、この入力の要素との積は０となり、分類部１２の入力として選択されない。言い換えると、この入力の要素は、ラベルとの相関が弱い不要な入力としてマスクされる。一方、マスクモデルｇが１を出力した場合、この入力の要素がそのまま分類部１２に入力されることから、この入力の要素は分類部１２の入力として選択されることになる。言い換えると、この入力の要素は、ラベルとの相関が強い入力として選別され、分類部１２に入力される。

［学習処理］
次に、マスクモデル１１１及びモデル１２１に対する学習処理について説明する。図６は、実施の形態における学習処理の処理手順を示すフローチャートである。

図６に示すように、学習部１３は、予め用意したデータセットからランダムに入力とラベルとを選択し、マスクモデル１１１に入力を印加する（ステップＳ１１）。学習部１３は、マスクモデル１１１の出力を計算し、元の入力と要素毎の積を計算させる（ステップＳ１２）。マスクモデル１１１の出力は、０または１である。マスクモデル１１１の出力が０である場合、元の入力との積は０となり、元の入力は、モデル１２１に入力される前にマスクされる。また、マスクモデル１１１の出力が１である場合、元の入力がそのままモデル１２１に入力される。

学習部１３は、分類部１２のモデル１２１に、マスクモデル１１１によって選別された入力を印加する（ステップＳ１３）。学習部１３は、分類部１２のモデル１２１の出力とマスクモデル１１１の出力とを目的関数（式（１２）参照）に入力する（ステップＳ１４）。

学習部１３は、損失関数の勾配（式（１０）参照）を使ってマスクモデル１１１、分類部１２のモデル１２１のパラメータを更新する（ステップＳ１５）。そして、学習部１３は、別途用意したデータセットを正しく分類できるかどうかなどを評価基準とする。学習部１３は、評価基準を満たさないと判定した場合（ステップＳ１６：Ｎｏ）、ステップＳ１に戻り学習を継続する。一方、学習部１３は、評価基準を満たすと判定した場合（ステップＳ１６：Ｙｅｓ）、学習を終了する。

［実施の形態の効果］
このように、分類装置１０は、教師データの入力に対するラベルとモデル１２１の出力との関係を評価する損失関数と、分類部１２への入力の大きさと、の和を最小化するようにマスクモデル１１１を用いて、ラベルとの相関が強い入力を選別して分類部１２のモデル１２１に入力している。言い換えると、分類装置１０は、モデル１２１の前段で、マスクモデル１１１によって、ラベルとの相関が弱い不要な入力をマスクしている。したがって、分類装置１０によれば、分類部１２のモデル１２１は、ラベルとの相関が強い要素が入力されるため、誤分類することなくクラス分類を行うことができ、敵対的攻撃に対しても頑健である。

また、分類装置１０では、マスクモデル１１１によって、ラベルとの相関が弱い不要な入力がマスクされ、分類部１２のモデル１２１には、ラベルとの相関が強い要素が入力される。このため、分類装置１０では、入力の中でどの要素を使用して分類したか解釈が容易である。

［実施形態のシステム構成について］
図１に示した分類装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、分類装置１０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、分類装置１０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵおよびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、分類装置１０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図７は、プログラムが実行されることにより、分類装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、分類装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、分類装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０分類装置
１１前処理部
１２分類部
１３学習部
１１１マスクモデル
１２１モデル

Claims

クラス分類を行うモデルであって深層学習モデルである第１のモデルを用いて、クラス分類を行う分類部と、
前記分類部の前段に設けられ、教師データの入力に対するラベルと前記第１のモデルの出力との関係を評価する損失関数と、前記分類部への入力の大きさと、の和を最小化する第２のモデルを用いて、前記第１のモデルの入力を選別する前処理部と、
を有することを特徴とする分類装置。
前記教師データを学習し、前記損失関数と前記分類部への入力の大きさとの和を最小化するように前記第１のモデル及び前記第２のモデルのパラメータを更新する学習部をさらに有することを特徴とする請求項１に記載の分類装置。
前記学習部は、二値を取る確率分布であるベルヌーイ分布の近似を用いて前記損失関数の勾配を求めることを特徴とする請求項２に記載の分類装置。
分類装置が実行する分類方法であって、
クラス分類を行うモデルであって深層学習モデルである第１のモデルを用いて、クラス分類を行う分類工程と、
前記分類工程の前に実行され、教師データの入力に対するラベルと前記第１のモデルの出力との関係を評価する損失関数と、前記分類工程への入力の大きさとの和を最小化する第２のモデルを用いて、前記第１のモデルの入力を選別する前処理工程と、
を含んだことを特徴とする分類方法。
クラス分類を行うモデルであって深層学習モデルである第１のモデルを用いて、クラス分類を行う分類ステップと、
前記分類ステップの前に実行され、教師データの入力に対するラベルと前記第１のモデルの出力との関係を評価する損失関数と、前記分類ステップへの入力の大きさとの和を最小化する第２のモデルを用いて、前記第１のモデルの入力を選別する前処理ステップと、
をコンピュータに実行させることを特徴とする分類プログラム。