JP2021015425A

JP2021015425A - 学習方法、学習プログラム及び学習装置

Info

Publication number: JP2021015425A
Application number: JP2019129414A
Authority: JP
Inventors: 優安富; Masaru Yasutomi; 孝河東; Takashi Kato; 健人上村; Taketo Uemura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-02-12
Also published as: US20210012193A1; EP3767552A1; CN112215341A

Abstract

【課題】モデルの表現能力の低下を抑え、汎化性能を高めること。【解決手段】学習装置は、入力層、中間層及び出力層を有するモデルに入力データを入力した際に中間層から出力される特徴量の分布と、あらかじめ設定された目標分布との間の分布間距離を損失関数として計算する。学習装置は、モデルに入力データを入力した際に出力層から出力される出力データと、入力データに対応する正解データとを基にcross entropyを計算する。学習装置は、分布間距離及びcross entropyの両方に基づいて、モデルを学習する。【選択図】図３

Description

本発明は、学習方法、学習プログラム及び学習装置に関する。

従来、DNN（Deep Neural Network）の過学習を抑えるための方法が提案されている。過学習とは、訓練データが少ない場合に、分類モデルが当該訓練データのみを正確に分類できるようになり、汎化性能が低下してしまう現象である。例えば、過学習を回避するための方法として、DNNの層及びユニットを減らし、モデルを単純化する方法が知られている。

特開平２−３０７１５３号公報特開平５−１９７７０１号公報特開２０１７−９７５８５号公報

しかしながら、上記の方法では、モデルの表現能力が低下する場合があるという問題がある。例えば、データを複数のクラスに分類するためのDNNのパラメータ数を減らすと、各クラス間の境界面を、所望する精度で近似できなくなる場合がある。このように、モデルの複雑さと表現能力はトレードオフの関係にある。

１つの側面では、モデルの表現能力の低下を抑え、汎化性能を高めることを目的とする。

１つの態様において、コンピュータは、学習方法を実行する。コンピュータは、入力層、中間層及び出力層を有するモデルの入力層に第１のデータを入力した際に中間層から出力される特徴量の分布である第１の分布と、あらかじめ設定された第２の分布とを基に第１の損失関数を計算する処理を実行する。コンピュータは、モデルの入力層に第１のデータを入力した際に出力層から出力される第２のデータと、第１のデータに対応する正解データとを基に第２の損失関数を計算する処理を実行する。コンピュータは、第１の損失関数及び第２の損失関数の両方に基づいて、モデルを学習する処理を実行する。

１つの側面では、モデルの表現能力の低下を抑え、汎化性能を高めることができる。

図１は、実施例１に係る学習装置の機能構成の一例を示す図である。図２は、モデルについて説明するための図である。図３は、実施例１に係る学習処理について説明するための図である。図４は、実施例１に係る学習処理の流れを示すフローチャートである。図５は、従来技術に係る特徴空間を説明するための図である。図６は、実施例１に係る特徴空間を説明するための図である。図７は、実験結果を示す図である。図８は、実施例２に係る学習処理について説明するための図である。図９は、混合分布の一例を示す図である。図１０は、実施例２に係る特徴空間の一例を示す図である。図１１は、実施例２に係る学習処理の流れを示すフローチャートである。図１２は、実施例３に係る学習処理の流れを示すフローチャートである。図１３は、ハードウェア構成例を説明する図である。

以下に、本発明に係る学習方法、学習プログラム及び学習装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明は限定されない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

学習装置はモデルの学習を行う。実施例１におけるモデルは、入力層、中間層及び出力層を有するDNNを用いたモデルである。例えば、モデルは画像を分類するための分類モデルである。この場合、モデルは、画像データを入力とし、画像に映っている対象物を分類するためのスコア等を出力する。

［機能構成］
図１を用いて、実施例に係る学習装置の機能構成について説明する。図１は、実施例に係る学習装置の機能構成の一例を示す図である。図１に示すように、学習装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

インタフェース部１１は、入出力装置との間のデータの入出力、及び他の装置との間でのデータの通信を行うためのインタフェースである。例えば、インタフェース部１１は、キーボードやマウス等の入力装置、ディスプレイやスピーカ等の出力装置、USBメモリ等の外部記憶装置との間でデータの入出力を行う。また、例えば、インタフェース部１１はNIC（Network Interface Card）であり、インターネットを介してデータの通信を行う。

記憶部１２は、データや制御部１３が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部１２は、訓練データ１２１、モデル情報１２２及び目標分布情報１２３を記憶する。

訓練データ１２１は、モデルの学習を行うためのデータである。訓練データ１２１には、入力データ１２１ａ及びラベルデータ１２１ｂが含まれる。入力データ１２１ａは、画像データそのもの、又は画像データから抽出された所定の特徴量である。ラベルデータ１２１ｂは、入力データ１２１ａに対する正解ラベルである。例えば、ラベルデータ１２１ｂは、入力データ１２１ａに対応する画像に映っている対象物を特定するための情報である。

モデル情報１２２は、モデルを構築するための情報である。モデル情報１２２は、例えばDNNに含まれる各ノードの重み及びバイアス等のパラメータである。モデル情報１２２は、学習により更新される。

目標分布情報１２３は、あらかじめ設定された特定の分布を表すパラメータである。ここで、目標分布情報１２３によって表される分布を目標分布と呼ぶ。例えば目標分布がガウス分布である場合、目標分布情報１２３には、ガウス分布を表すための平均及び共分散行列が含まれる。

例えば、学習処理では、目標分布とモデルの中間層から出力されるデータの分布との間の分布間距離が損失関数の一部として利用される。つまり、学習処理においては、目標分布と中間層から出力されるデータの分布とが近付くように、モデルのパラメータが更新される。学習処理の詳細については後述する。

ここで、図２を用いて実施例におけるモデルについて説明する。図２は、モデルについて説明するための図である。図２のモデル１２２ａは、モデル情報１２２により構築されるDNNである。このとき、αは、モデルの入力層に入力される入力データ１２１ａである。また、βは、モデルから出力される出力データである。また、γは、モデルの中間層から出力される特徴量である。また、θは、目標分布情報１２３である。学習装置１０は、特徴量γの分布が、θによって表される目標分布に近付くようにモデル１２２ａを学習する。

制御部１３は、例えば、CPU（Central Processing Unit）、MPU（Micro Processing Unit）、GPU（Graphics Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部１３は、例えば、ASIC（Application Specific Integrated Circuit）やFPGA（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。制御部１３は、抽出部１３１、第１の計算部１３２、第２の計算部１３３及び学習部１３４を有する。

抽出部１３１は、画像データからモデルの入力層に入力するための特徴量を抽出する。例えば、抽出部１３１は、画像の各領域の特徴を所定サイズのベクトルで表した特徴量を抽出する。抽出部１３１は、抽出した特徴量を、訓練データ１２１の入力データ１２１ａとして記憶部１２に格納することができる。

第１の計算部１３２は、DNNの入力層に入力データ１２１ａを入力した際に中間層から出力される特徴量の分布と、あらかじめ設定された目標分布とを基に損失関数を計算する。DNNは、入力層、中間層及び出力層を有するモデルの一例である。また、DNNは、モデル情報１２２を基に構築される。また、入力データ１２１ａは、第１のデータの一例である。また、目標分布は、第２の分布の一例である。前述の通り、目標分布は、目標分布情報１２３によって表される。

第２の計算部１３３は、DNNの入力層に入力データ１２１ａを入力した際に出力層から出力される第２のデータと、入力データ１２１ａに対応する正解データとを基に第２の損失関数を計算する。DNNは、入力層、中間層及び出力層を有するモデルの一例である。

学習部１３４は、第１の損失関数及び第２の損失関数の両方に基づいて、モデルを学習する。例えば、学習部１３４は、第１の損失関数と第２の損失関数を足して得られる損失関数を基に、誤差逆伝播法によりモデルを学習する。

図３を用いて、学習処理について説明する。図３は、実施例１に係る学習処理について説明するための図である。図３に示すように、モデル情報１２２を基に構築されたDNNであるモデル１２２ａは、複数の中間層を有し、また活性化関数としてSoftmaxを有する。また、学習装置１０は、モデル１２２ａに入力データ１２１ａを入力する。入力データ１２１ａは、ミニバッチであってもよい。

第１の計算部１３２は、入力層、複数の中間層、及び活性化関数である出力層を有するDNNの入力層に入力データ１２１ａを入力した際に、出力層に最も近い中間層から出力される特徴量の分布と、目標分布とを基に損失関数を計算する。

具体的には、第１の計算部１３２は、モデル１２２ａの出力層に最も近い中間層から出力される特徴量の分布と、目標分布情報１２３によって表される分布との間の分布間距離を損失関数として計算する。

例えば、分布間距離は、KLダイバージェンス及びMMD（maximum mean discrepancy）等である。目標分布がガウス分布等である場合に、第１の計算部１３２は、ミニバッチ内の統計量を用いてKLダイバージェンスを計算することができる。また、第１の計算部１３２は、目標分布からサンプリングしたデータを使ってMMDを計算することができる。

また、第２の計算部１３３は、モデル１２２ａの出力データ１２２ｂと、訓練データ１２１に含まれるラベルデータ１２１ｂとのcross entropyを損失関数として計算する。そして、学習部１３４は、第１の計算部１３２によって計算された損失関数と、第２の計算部１３３によって計算された損失関数を基にモデル１２２ａのパラメータを更新する。なお、第１の計算部１３２によって計算される分布間距離は、中間層から出力される特徴量が目標分布に従うように正則化するためのものであるということができる。

ここで、入力データ１２１ａがn個のデータを含むミニバッチであるとする。このとき、中間層から出力される特徴量zは、（１）式のように表される。

また、目標分布からサンプリングしたm個のデータz^*は、（２）式のように表される。

ここで、xとx´のガウスカーネルk(x, x´)は、（３）式のように表される。ただし、σはハイパーパラメータとして与えられるものとする。

この場合、第１の計算部１３２は、分布間距離MMD(z, z^*)を、（４）式のように計算する。

また、第２の計算部１３３によって計算されるcross entropyをL_outputとし、λをハイパーパラメータとして与えられる重みとすると、学習部１３４は、全体の損失関数Lを（５）式のように計算する。

［処理の流れ］
図４を用いて、学習装置１０による学習処理の流れを説明する。図４は、実施例１に係る学習処理の流れを示すフローチャートである。図４に示すように、まず、学習装置１０は、画像データから特徴量を入力データ１２１ａとして抽出する（ステップＳ１０１）。次に、学習装置１０は、入力データ１２１ａをモデルの入力層に入力する（ステップＳ１０２）。

ここで、学習装置１０は、中間層から出力される特徴量の分布と目標分布との間の分布間距離を計算する（ステップＳ１０３）。また、学習装置１０は、出力層から出力される出力データ１２２ｂのラベルデータ１２１ｂに対するcross entropyを計算する（ステップＳ１０４）。そして、学習装置１０は、cross entropyに分布間距離を加えた損失関数に基づいてモデルを学習する（ステップＳ１０５）。

［効果］
上述したように、学習装置１０は、入力層、中間層及び出力層を有するモデルの入力層に第１のデータを入力した際に中間層から出力される特徴量の分布である第１の分布と、あらかじめ設定された第２の分布とを基に第１の損失関数を計算する。学習装置１０は、モデルの入力層に第１のデータを入力した際に出力層から出力される第２のデータと、第１のデータに対応する正解データとを基に第２の損失関数を計算する。学習装置１０は、第１の損失関数及び第２の損失関数の両方に基づいて、モデルを学習する。このように、学習装置１０は、中間層から出力される特徴量の分布を目標分布に近付けることで過学習を防止している。このため、実施例１によれば、モデルの表現能力の低下を抑え、汎化性能を高めることができる。

上記の効果について、図５及び図６を用いてさらに説明する。図５は、従来技術に係る特徴空間を説明するための図である。図６は、実施例１に係る特徴空間を説明するための図である。

DNNは、入力空間におけるデータを特徴空間に写像するモデルということができる。入力空間と比べて、特徴空間では、歪でない境界線によりデータを分類することができる。一方、境界線を入力空間に逆に写像すると、歪な境界線となる。この境界線の歪さの度合いが大きくなると、汎化性能が低下する。その結果過学習（over fitting）が発生する。

図５に示すように、従来技術では、特徴空間では例えば直線に近い形状の境界線が生成される。言い換えると、モデルは、クラスが同じであるデータ間の距離がなるべく近くなり、クラスが異なるデータ間の距離がなるべく遠くなるような特徴空間を生成する。一方、境界線を入力空間に逆に写像すると、歪な曲線の形状になる。このような境界線は、訓練データを高精度で分類することはできるが、訓練データ以外のデータに対しては分類精度が低くなる。

このような過学習は、ノードや層の数を減らし、モデルを単純化することにより解消される。ただし、その場合、十分な訓練データがなければ、モデルは分布を表現しきれない（under fitting）。さらに、現実的には常に十分な訓練データを用意できるとは限らない。

これに対し、実施例１では、図６に示すように、入力空間において境界線が歪な形状になることが抑止される。これは、学習装置１０が、特徴空間におけるデータの分布が目標分布に近づくように正則化を行っているためである。言い換えると、学習装置１０は、特徴空間において、クラス間の距離が離れ過ぎないように調整を行うことで過学習を防止している。図６の例では、学習装置１０は、２つのクラスのデータがいずれも１つのガウス分布に従うように正則化を行っている。

学習装置１０は、第１の分布と第２の分布との間の距離を第１の損失関数として計算する。学習装置１０は、KLダイバージェンスやMMD等の微分可能な分布間距離を損失関数として計算するので、誤差逆伝播法で学習を行うことができる。

学習装置１０は、入力層、複数の中間層、及び所定の活性化関数である出力層を有するニューラルネットワークの入力層に第１のデータを入力した際に出力層に最も近い層から出力される特徴量の分布である第１の分布と、第２の分布とを基に第１の損失関数を計算する。このように、学習装置１０は、最も出力層に近い中間層の出力を調整することで、効果的な正則化を行うことができる。なお、学習装置１０は、他の中間層の出力を調整することもできるが、その場合過学習防止の効果が小さくなる場合がある。

学習装置１０は、第１の損失関数と第２の損失関数を足して得られる損失関数を基に、誤差逆伝播法によりモデルを学習する。このように、学習装置１０は、学習自体は既知の手法を使って行うことができる。また、学習装置１０は、第２の損失関数に所定の重みを付けてもよい。

実施例１の学習装置１０によって学習が行われたモデルを使った実験について説明する。モデルは、手書きの数字の画像を、書かれている数字ごとに分類する。学習装置１０は、手書き数字のデータセットであるMNIST（参考URL:http://yann.lecun.com/exdb/mnist/）のうちの100件を訓練データとしてモデルの学習を行った。訓練データの数として100個は少ないため、この実験の設定は過学習が発生しやすい状況を作り出すものである。また、目標分布は正規ガウス分布とした。

実験におけるDNNは、6層のMLP（Multilayer perceptron）である。また、DNNの各中間層のユニットの数は、784-1024-512-256-128-64-10である。つまり、最も出力層に近い中間層のユニットの数は10個である。学習装置１０は、この10個のユニットを持つ層の出力が目標分布に近付くように調整を行った。また、分布間距離としてMMDを使用し、（５）式におけるλを2とした。

実験では、従来技術と実施例について、MNISTから抽出した10,000件のテストデータに対するモデルの分類精度を計測し比較した。ただし、従来技術では正則化は行われないものとする。また、従来技術については、正則化に関する条件を除き、実施例と同様の条件で計測を行った。

図７は、実験結果を示す図である。図７に示すように、正則化なしの場合、すなわち従来技術による学習を行った場合、モデルの分類精度は65.57%であった。これに対し、正則化ありの場合、すなわち実施例による学習を行った場合、モデルの分類精度は70.69%であった。このように、実施例では、訓練データが少ないという状況下においても、正則化により精度の向上を実現している。

分類モデルは、データを複数のクラスのいずれかに分類する場合がある。このような場合、分類されるクラスごとに異なる目標分布が設定されてもよい。実施例２では、目標分布として混合分布が用いられる。また、混合分布の各混合要素は、モデルによって分類される各クラスに割り当てられているものとする。

実施例２における学習装置１０の構成は、実施例１のものと同様である。ただし、第１の計算部１３２は、中間層から出力される特徴量の分布と、入力データ１２１ａに対応する正解データに対して設定された目標分布とを基に損失関数を計算する。

図８を用いて、学習処理について説明する。図３は、実施例１に係る学習処理について説明するための図である。図８に示すように、学習装置１０は、モデル１２２ａの入力層に入力データ１２１ａを入力する。ここで、第１の計算部１３２は、ラベルデータ１２１ｂから入力データ１２１ａに対応するラベルを選択する。そして、第１の計算部１３２は、選択したラベルに対応する混合要素が示す分布と、中間層から出力されるデータの分布との間の分布間距離を損失関数として計算する。

混合分布の設定方法について説明する。ここでは、モデルは、画像を「犬」、「車」、「猫」のいずれかのクラスに分類するものとする。この場合、混合分布の混合要素として、「犬」クラスに対応する特徴量の目標分布、「車」クラスに対応する特徴量の目標分布、「猫」クラスに対応する特徴量の目標分布が用意される。

例えば、動物である「猫」の画像は、人工物である「車」の画像よりも、同じく動物である「犬」の画像と概念が近く、特徴量が似ることが考えられる。このため、混合分布は、各混合要素をガウス分布として、（６）式及び（７）式のように表されてもよい。

μ_dogは、「犬」クラスに対応する目標分布の平均である。μ_carは、「車」クラスに対応する目標分布の平均である。μ_catは、「猫」クラスに対応する目標分布の平均である。（６）式及び（７）式は、各クラスに対応する目標分布が、図９に示すような、平均が異なり、分散が共通するガウス分布であることを示している。図９は、混合分布の一例を示す図である。

このような設定で学習が行われたモデルは、各クラスに対応する入力データを、図１０のような特徴空間に写像するようになることが期待される。図１０は、実施例２に係る特徴空間の一例を示す図である。図１０に示すように、「犬」クラスの特徴量と「猫」クラスの特徴量は、「車」クラスの特徴量と比べて互いに近くにある。さらに、各クラスの特徴量は離れ過ぎないように調整されている。

［処理の流れ］
図１１を用いて、学習装置１０による学習処理の流れを説明する。図１１は、実施例２に係る学習処理の流れを示すフローチャートである。図１１に示すように、まず、学習装置１０は、画像データから特徴量を入力データ１２１ａとして抽出する（ステップＳ２０１）。次に、学習装置１０は、入力データ１２１ａをモデルの入力層に入力する（ステップＳ２０２）。

ここで、学習装置１０は、入力データ１２１ａに対応するラベルに対してあらかじめ設定された目標分布を選択する（ステップＳ２０３ａ）。そして、学習装置１０は、中間層から出力される特徴量の分布と選択した目標分布との間の分布間距離を計算する（ステップＳ２０３ｂ）。また、学習装置１０は、出力層から出力される出力データ１２２ｂのラベルデータ１２１ｂに対するcross entropyを計算する（ステップＳ２０４）。そして、学習装置１０は、cross entropyに分布間距離を加えた損失関数に基づいてモデルを学習する（ステップＳ２０５）。

上述したように、学習装置１０は、第１の計算部１３２は、第１の分布と、複数の正解データのそれぞれに対してあらかじめ設定された分布のうち、第１のデータに対応する正解データに対して設定された第２の分布とを基に第１の損失関数を計算する。このように、入力データに合わせた目標分布を設定することで、学習装置１０は、効率的に学習を行い、さらにモデルの性能の向上させることができる。

実施例３において、学習装置１０は半教師あり学習を行う。すなわち、学習装置１０は、訓練データにラベルが含まれていない場合であってもモデルの学習を行うことができる。学習装置１０は、入力データ１２１ａに対応するラベルがない場合、第１の計算部１３２によって計算される損失関数を基に誤差逆伝播によるDNNの学習を行う。

［処理の流れ］
図１２を用いて、学習装置１０による学習処理の流れを説明する。図１２は、実施例３に係る学習処理の流れを示すフローチャートである。図１２に示すように、まず、学習装置１０は、画像データから特徴量を入力データ１２１ａとして抽出する（ステップＳ３０１）。次に、学習装置１０は、入力データ１２１ａをモデルの入力層に入力する（ステップＳ３０２）。

ここで、学習装置１０は、中間層から出力される特徴量の分布と選択した目標分布との間の分布間距離を計算する（ステップＳ３０３）。そして、学習装置１０は、入力データに対応するラベルが存在するか否かを判定する（ステップＳ３０４ａ）。

入力データに対応するラベルが存在する場合（ステップＳ３０４ａ、Ｙｅｓ）、学習装置１０は、出力層から出力される出力データ１２２ｂのラベルデータ１２１ｂに対するcross entropyを計算する（ステップＳ３０４ｂ）。そして、学習装置１０は、cross entropyに分布間距離を加えた損失関数に基づいてモデルを学習する（ステップＳ３０５）。

一方、入力データに対応するラベルが存在しない場合（ステップＳ３０４ａ、Ｎｏ）、学習装置１０は、分布間距離に基づいてモデルを学習する（ステップＳ３０５ａ）。

［効果］
上述したように、学習装置１０は、第１のデータに対応する正解データが存在しない場合、第１の損失関数のみに基づいてモデルを学習する。一般的に、ラベルなしの訓練データは、ラベルありの訓練データに比べると収集が容易である。実施例３によれば、訓練データにラベルがない場合であっても、モデルの汎化性能を向上させるような学習を行うことができる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
図１３は、ハードウェア構成例を説明する図である。図１３に示すように、学習装置１０は、通信インタフェース１０ａ、HDD（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１３に示した各部は、バス等で相互に接続される。

通信インタフェース１０ａは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD１０ｂは、図１に示した機能を動作させるプログラムやDBを記憶する。

プロセッサ１０ｄは、図１に示した各処理部と同様の処理を実行するプログラムをHDD１０ｂ等から読み出してメモリ１０ｃに展開することで、図１等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、学習装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、抽出部１３１、第１の計算部１３２、第２の計算部１３３及び学習部１３４と同様の機能を有するプログラムをHDD１０ｂ等から読み出す。そして、プロセッサ１０ｄは、抽出部１３１、第１の計算部１３２、第２の計算部１３３及び学習部１３４等と同様の処理を実行するプロセスを実行する。プロセッサ１０ｄは、例えば、CPU、MPU、ASIC等のハードウェア回路である。

このように学習装置１０は、プログラムを読み出して実行することで分類方法を実行する情報処理装置として動作する。また、学習装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、学習装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（FD）、CD-ROM、MO（Magneto−Optical disk）、DVD（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０学習装置
１１インタフェース部
１２記憶部
１３制御部
１２１訓練データ
１２１ａ入力データ
１２１ｂラベルデータ
１２２モデル情報
１２２ａモデル
１２２ｂ出力データ
１２３目標分布情報
１３１抽出部
１３２第１の計算部
１３３第２の計算部
１３４学習部

Claims

入力層、中間層及び出力層を有するモデルの前記入力層に第１のデータを入力した際に前記中間層から出力される特徴量の分布である第１の分布と、あらかじめ設定された第２の分布とを基に第１の損失関数を計算し、
前記モデルの前記入力層に前記第１のデータを入力した際に前記出力層から出力される第２のデータと、前記第１のデータに対応する正解データとを基に第２の損失関数を計算し、
前記第１の損失関数及び前記第２の損失関数の両方に基づいて、前記モデルを学習する
処理をコンピュータが実行することを特徴とする学習方法。
前記第１の損失関数を計算する処理は、前記第１の分布と前記第２の分布との間の距離を前記第１の損失関数として計算することを特徴とする請求項１に記載の学習方法。
前記第１の損失関数を計算する処理は、入力層、複数の中間層、及び所定の活性化関数である出力層を有するニューラルネットワークに前記第１のデータを入力した際に前記複数の中間層のうち、前記出力層に最も近い層から出力される特徴量の分布である第１の分布と、前記第２の分布とを基に前記第１の損失関数を計算し、
前記学習する処理は、前記第１の損失関数と前記第２の損失関数を足して得られる損失関数を基に、誤差逆伝播法により前記モデルを学習することを特徴とする請求項１又は２に記載の学習方法。
前記第１の損失関数を計算する処理は、前記第１の分布と、複数の正解データのそれぞれに対してあらかじめ設定された分布のうち、前記第１のデータに対応する正解データに対して設定された第２の分布とを基に前記第１の損失関数を計算することを特徴とする請求項１又は２に記載の学習方法。
前記学習する処理は、前記第１のデータに対応する正解データが存在しない場合、前記第１の損失関数のみに基づいて前記モデルを学習することを特徴とする請求項１から４のいずれか１項に記載の学習方法。
コンピュータに、
入力層、中間層及び出力層を有するモデルに第１のデータを入力した際に前記中間層から出力される特徴量の分布である第１の分布と、あらかじめ設定された第２の分布とを基に第１の損失関数を計算し、
前記モデルに前記第１のデータを入力した際に前記出力層から出力される第２のデータと、前記第１のデータに対応する正解データとを基に第２の損失関数を計算し、
前記第１の損失関数及び前記第２の損失関数の両方に基づいて、前記モデルを学習する
処理を実行させることを特徴とする学習プログラム。
入力層、中間層及び出力層を有するモデルに第１のデータを入力した際に前記中間層から出力される特徴量の分布である第１の分布と、あらかじめ設定された第２の分布とを基に第１の損失関数を計算する第１の計算部と、
前記モデルに前記第１のデータを入力した際に前記出力層から出力される第２のデータと、前記第１のデータに対応する正解データとを基に第２の損失関数を計算する第２の計算部と、
前記第１の損失関数及び前記第２の損失関数の両方に基づいて、前記モデルを学習する学習部と、
を有することを特徴とする学習装置。