JP2024064789A

JP2024064789A - 学習装置、学習方法

Info

Publication number: JP2024064789A
Application number: JP2022173654A
Authority: JP
Inventors: 晃一丹治; Koichi Tanji
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-05-14
Also published as: US20240144008A1

Abstract

【課題】より効率的に生徒モデルの蒸留学習を進展させるための技術を提供すること。【解決手段】第１学習モデルの出力を用いた蒸留学習により、該第１学習モデルと少なくとも部分的に同じ構成を有する第２学習モデルの学習を行う。第２学習モデルの学習中に、第１学習モデルのパラメータ、第１学習モデルの構成、第２学習モデルのパラメータ、第２学習モデルの構成、のうち１以上を動的に変化させる。【選択図】図１

Description

本発明は、学習モデルの蒸留学習技術に関するものである。

近年、機械学習の分野で蒸留学習が注目されている（非特許文献１）。蒸留学習においては、一般的には大規模・高精度な教師モデルの出力を教師データ（ソフトターゲット）とし、より軽量な生徒モデルを、該生徒モデルの出力とソフトターゲットとの間の誤差（ソフトターゲット誤差）を用いて学習する。

ここで、学習とは、例えば階層型のニューラルネットワークを用いた場合、順伝搬計算の結果得られた出力値の誤差を、該ニューラルネットワークにおいて逆伝播させることによって、該ニューラルネットワークにおける重み係数やその他のパラメータの更新を、順次反復的に行うことをいう。

また、教師データとは、入力データに対する望ましい出力（ラベル値ないしはその分布）であり、前述した学習の際には、入力データと教師データとからなる学習データを用いて学習を行う。

また、蒸留学習におけるソフトターゲットとは、例えば、温度付ソフトマックス関数を出力層の活性化関数に使用することにより得られる出力である。温度付ソフトマックス関数には、温度を上げるにつれ、正解クラスに相当するクラスの出力値は小さくなり、逆にそれ以外のクラスの出力値は大きくなるという特性がある。それにより、通常の教師データ（ハードターゲット）を学習に用いた場合よりも、正解クラス以外のクラスの出力値（情報）が学習に寄与することになる。

そして、ソフトターゲット誤差とは、このソフトターゲットと、生徒モデルの出力と、の間で算出される誤差のことである。一般的には、誤差関数には交差エントロピーが用いられる。

そして、蒸留学習における教師モデルとは、蒸留学習において生徒モデルの学習の際に、ソフトターゲットを出力する、一般的には生徒モデルよりも大規模かつ高精度なモデルである。また、生徒モデルとは、一般的には教師モデルよりも軽量なモデルであり、蒸留学習においてはソフトターゲット誤差を用いた学習によって生成する。

従来から、軽量なモデルを取得するために、ニューラルネットワークのレイヤ構造や結合状態を、工夫もしくは探索することにより、効率的アーキテクチャーを構成することが考えられている（非特許文献２）。また、ニューラルネットワークのパラメータである重み係数を小ビット数に量子化することや、寄与度の小さいレイヤや結合を削除する枝刈りなどの手法も用いられている。

その一方、蒸留学習は、教師モデルとして用いる学習済みモデルが必要ではある。しかし、蒸留学習には、軽量で高精度なモデルが得られるという利点だけでなく、正則化効果によって過学習しにくいモデルが得られる、或いは教師なしデータを学習に使用できる等といった、従来の軽量モデルを取得するための手法にはない利点がある。

この、正則化効果や教師なしデータの利用といった利点は、ネットワークサイズを変化させない場合にも有効である。ネットワークサイズを変化させない場合に、こうした蒸留学習の利点を活用する手法として、ＢｏｒｎＡｇａｉｎ（非特許文献３）という手法が提案されている。ＢｏｒｎＡｇａｉｎにおいては、教師モデルと生徒モデルに、同規模のモデルを用いて、蒸留学習を行う。その際、生徒モデルの初期値にはランダム値を用いる。最初の生徒モデルの蒸留学習が完了したら、今度はそれを教師モデルとして、再度、別の生徒モデルの蒸留学習を行う。この別の生徒モデルの蒸留学習の際にも、初期値にはランダム値を用いる。ＢｏｒｎＡｇａｉｎにおいては、この生徒モデルのランダム値からの蒸留学習と、教師モデルと生徒モデルの置換という操作を複数回反復し、複数の生徒モデルの蒸留学習を行う。そして最後に、生成した複数の生徒モデルのアンサンブルを、最終的な学習モデルとして使用する。

"ＤｉｓｔｉｌｌｉｎｇｔｈｅＫｎｏｗｌｅｄｇｅｉｎａＮｅｕｒａｌＮｅｔｗｏｒｋ"，Ｇ．Ｈｉｎｔｏｎｅｔａｌ．（ＮＩＰＳ２０１４） "ＮｅｕｒａｌＡｒｃｈｉｔｅｃｔｕｒｅＳｅａｒｃｈｗｉｔｈＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ"，Ｂ．Ｚｏｐｈｅｔａｌ．（ＩＣＬＲ２０１７） "Ｂｏｒｎ－ＡｇａｉｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ"，ＴｏｍｍａｓｏＦｕｒｌａｎｅｌｌｏｅｔａｌ．（ＩＣＭＬ２０１８）Ｋｒｉｚｈｅｖｓｋｙ，Ａ．，Ｓｕｔｓｋｅｖｅｒ，Ｉ．，ａｎｄＨｉｎｔｏｎ，Ｇ．Ｅ． "ＩｍａｇｅＮｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ" ＮＩＰＳ，ｐｐ．１１０６?１１１４，２０１２．Ｋ．ＳｉｍｏｎｙａｎａｎｄＡ．Ｚｉｓｓｅｒｍａｎ． "Ｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅ－ｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ" ＩＣＬＲ，２０１５．

このＢｏｒｎＡｇａｉｎには、ネットワークサイズを変化させない場合にも蒸留学習の効果が得られるという利点はあるものの、複数の生徒モデルの蒸留学習を、ランダム初期値から行わなければならず、学習のためのコストが高くなるという課題がある。また、学習済みモデルを用いて推論を行う際にも、複数の生徒モデルの出力のアンサンブルを行う必要があり、推論の際の実装及び演算コストが増えるという課題がある。なお、ここで推論とは、学習済モデルに対象となるデータを入力し、例えば入力データがどのクラスに該当するのかというクラス分類をしたい場合には、クラス分類の出力結果を取得する様な工程のことである。本発明では、より効率的に生徒モデルの蒸留学習を進展させるための技術を提供する。

本発明の一様態は、第１学習モデルの出力を用いた蒸留学習により、該第１学習モデルと少なくとも部分的に同じ構成を有する第２学習モデルの学習を行う学習手段と、前記第２学習モデルの学習中に、前記第１学習モデルのパラメータ、前記第１学習モデルの構成、前記第２学習モデルのパラメータ、前記第２学習モデルの構成、のうち１以上を動的に変化させる制御手段とを備えることを特徴とする。

本発明の構成によれば、より効率的に生徒モデルの蒸留学習を進展させることができる。

学習装置の機能構成例を示すブロック図。生徒モデルの蒸留学習のフローチャート。ステップＳ１０４における処理の詳細を示すフローチャート。図２のフローチャートに従った処理の模式図。従来技術である蒸留学習を説明する図。ステップＳ２０１における処理を説明する図。温度付ソフトマックス関数の温度揺らぎの様子を模式的に示した図。教師モデルおよび生徒モデルのそれぞれのモデル構成に揺らぎを与える工程を模式的に示す図。複数の生徒モデルを自己蒸留学習により生成する工程を模式的に示した図。生徒モデルの学習において該生徒モデルに入力する学習対象のデータとしての画像に揺らぎを与えて該生徒モデルの自己蒸留学習を行うケースを説明する図。学習装置に適用可能なコンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態では、蒸留学習において、教師モデルおよび生徒モデルのそれぞれの最終出力層の活性化関数に温度付ソフトマックス関数を用い、この温度付ソフトマックス関数の温度に揺らぎを与えて該生徒モデルの自己蒸留学習を行う事例について説明する。先ず、本実施形態に係る学習装置の機能構成例について、図１のブロック図を用いて説明する。

記憶部１０１には、蒸留学習に用いる学習データが格納されている。学習データは、学習対象のデータと、該学習対象のデータに対応する教師データと、を含む。学習対象のデータは、例えば、静止画像のデータであっても良いし、動画像のデータであっても良いし、音声のデータであっても良い。教師データは、学習対象のデータにおけるクラスを特定するためのデータである。

学習部１０２は、記憶部１０１に格納されている学習データを用いて教師モデルの学習を行う。教師モデルには、階層型ニューラルネットワークの一例である、コンボリューション層、プーリング層、フルコネクト層、を有するＣＮＮ（コンボリューショナルニューラルネットワーク）を用いる。また、教師モデルの最終出力層の活性化関数には、温度付ソフトマックス関数を用いる。学習部１０２は、教師モデルの学習が完了すると、学習済みの教師モデルを記憶部１０３に格納する。

学習部１０４は、記憶部１０１に格納されている学習データに含まれている学習対象のデータと、記憶部１０３に格納されている教師モデルの出力であるソフトターゲットと、を用いた蒸留学習によって、生徒モデルの学習を行う。生徒モデルには、少なくとも教師モデルと部分的に同じ構成を有するモデルを用いる。つまり、生徒モデルは、教師モデルと同じ構成を有するモデルであっても良いし、教師モデルと一部の構成が同じであるモデルであっても良い。いずれにしても、生徒モデルにも、階層型ニューラルネットワークの一例である、コンボリューション層、プーリング層、フルコネクト層、を有するＣＮＮ（コンボリューショナルニューラルネットワーク）を用いる。また、生徒モデルの最終出力層の活性化関数にも、温度付ソフトマックス関数を用いる。そして学習部１０４は生徒モデルの学習が完了すると、学習済みの生徒モデルを記憶部１０５に格納する。

揺らぎ付与部１０６は、系全体に与える揺らぎの制御を行う。本実施形態では、揺らぎ付与部１０６は、教師モデルの最終出力層の活性化関数に用いる温度付ソフトマックス関数、生徒モデルの最終出力層の活性化関数に用いる温度付ソフトマックス関数、のそれぞれの温度に、一定の平均温度と標準偏差を有するガウシアン揺らぎを与えて、該温度を動的に変更させる。

つまり、揺らぎ付与部１０６は、生徒モデルの学習回数がＬＮ（ＬＮは任意の自然数であり、変動しても良いし、固定値であっても良い）回増加するたびに、一定の平均温度と標準偏差を有するガウス分布に従って発生させた乱数を「教師モデルの最終出力層の活性化関数に用いる温度付ソフトマックス関数の温度（教師温度）」に設定する。これにより、生徒モデルの学習において（学習中に）教師温度を動的に変更することができる。

同様に、揺らぎ付与部１０６は、生徒モデルの学習回数がＬＮ回増加するたびに、一定の平均温度と標準偏差を有するガウス分布に従って発生させた乱数を「生徒モデルの最終出力層の活性化関数に用いる温度付ソフトマックス関数の温度（生徒温度）」に設定する。これにより、生徒モデルの学習において（学習中に）生徒温度を動的に変更することができる。

次に、本実施形態に係る学習装置による生徒モデルの蒸留学習について、図２のフローチャートに従って説明する。また、図２のフローチャートに従った処理の模式図を図４に示す。

ステップＳ１０１では、学習部１０２は、記憶部１０１に格納されている学習データを用いて教師モデルの学習を行う。教師モデルのパラメータ（重み係数など）の初期値は特定の値に限らず、ランダムに設定しても良いし、教師モデルに適合する既存のモデルがあれば、そのパラメータを初期値に用いてもよい。図４に示す如く、このような学習部１０２による学習処理（ハードターゲット学習０）により、教師モデル４０１が生成される。学習部１０２は、教師モデルの学習が完了すると、学習済みの教師モデルを記憶部１０３に格納する。

ステップＳ１０２では、学習部１０４は、記憶部１０３に格納されている学習済みの教師モデルを読み出し、該学習済みの教師モデルを用いた推論が可能な様にする。ステップＳ１０３では、学習部１０４は、生徒モデルのパラメータ（重み係数など）に初期値を設定する。生徒モデルのパラメータの初期値として、学習済みの教師モデルのパラメータを設定する。図４の例では、教師モデル４０１のパラメータを、生徒モデル４０２のパラメータの初期値として設定する。

ステップＳ１０４では、教師モデルの出力を用いた蒸留学習により生徒モデルの学習を行う。図４の例では、教師モデル４０１の出力を用いて生徒モデル４０２の自己蒸留学習（ソフトターゲット学習１）を行って、生徒モデル４０３を生成する。ここで、本実施形態に係る生徒モデルの自己蒸留学習について説明する前に、従来技術である蒸留学習について、図５を用いて説明する。

画像５０１は、教師モデル５０３に入力する学習対象のデータであり、画像５０２は、生徒モデル５０４に入力する学習対象のデータである。画像５０１および画像５０２はいずれも、動物であるネコの画像である。一般に、教師モデルには、Ａｌｅｘｎｅｔ（非特許文献４）やＶＧＧ（非特許文献５）といった大規模なモデルが使用される。一方、生徒モデルには、一般には推論時の実装コストや演算コストを削減するために、より軽量なモデルが使用される。

学習対象のデータとして画像５０１を入力した教師モデル５０３からは、クラスごとの出力値（該クラスに対する尤度）の分布（ソフトターゲット）５０５が出力される。ｐ１は１番目のクラスである「ｃａｔ」に対応する尤度、ｐ２は２番目のクラスである「ｄｏｇ」に対応する尤度、ｐｉはｉ番目のクラスに対応する尤度、を示している。活性化関数として、ソフトマックス関数を用いた場合の出力値の分布は、正解クラスに相当するクラスの出力値（ここでは、クラス「ｃａｔ」に対応する尤度）が１に近く、それ以外のクラスの出力値は０に近いという特性がある。ここで、ｉ番目のクラスに対応する出力値（尤度）をｓｏｆｔｍａｘ＿ｉとすると、ソフトマックス関数は（式１）に示す関数となる。

ここで、ｕ_ｉは、ｉ番目のクラスに対応するソフトマックス関数への入力値を示しており、ｕ_ｊは、ｊ番目のクラスに対応するソフトマックス関数への入力値を示している。また、（式１）における変数ｊの範囲は、１～全クラス数である。

しかし、蒸留学習においては、活性化関数に温度付ソフトマックス関数といった、出力値の分布がより滑らかになる関数を使用するため、正解クラスに相当するクラスの出力値（ここでは、「ｃａｔ」に対応する尤度）以外の出力値も比較的大きな値を有する。ここで、温度付ソフトマックス関数は、設定温度をＴとした時に、ｉ番目のクラスに対応する出力値（尤度）をＴ＿ｓｏｆｔｍａｘ＿ｉとすると（式２）に示す関数となる。

ここで、ｕ_ｉは、ｉ番目のクラスに対応する温度付ソフトマックス関数への入力値を示しており、ｕ_ｊは、ｊ番目のクラスに対応する温度付ソフトマックス関数への入力値を示している。また、（式２）における変数ｊの範囲は、１～全クラス数である。教師モデルの出力値（尤度）ｐ_ｉは、上記の（式２）を用いてＴ＿ｓｏｆｔｍａｘ＿ｉとして得られる。

そのため、温度付ソフトマックス関数の出力値（ここではｐ_ｉの分布）には、正解クラスに相当するクラスの情報のみならず、それ以外のクラスの情報にも、正解クラスとの類似度といった情報が含まれており、それが学習に寄与することになる。

学習対象のデータとして画像５０２を入力した生徒モデル５０４からは、クラスごとの出力値（該クラスに対する尤度）の分布５０６が出力される。ｑ１は１番目のクラスである「ｃａｔ」に対応する尤度、ｑ２は２番目のクラスである「ｄｏｇ」に対応する尤度、ｑｉはｉ番目のクラスに対応する尤度、を示している。

一般には、例えば教師モデルと生徒モデルの活性化関数に、温度付ソフトマックス関数を用いた場合には、教師温度と同じ温度を生徒温度にも適用する。蒸留学習においては、この教師モデルの出力値（尤度）ｐ_ｉと、生徒モデルの出力値（尤度）ｑ_ｉと、から、以下の（式３）を用いて、ソフトターゲット損失soft_target_lossを求める。

ここで、（式３）における変数ｉの範囲は、１～全クラス数である。また、生徒モデルの出力値（尤度）ｑ_ｉは、以下の（式４）に従って求めることができる。

ここで、ｖ_ｉは、生徒モデルにおいて、ｉ番目のクラスに対応する温度付ソフトマックス関数への入力値を示しており、ｖ_ｊは、生徒モデルにおいて、ｊ番目のクラスに対応する温度付ソフトマックス関数への入力値を示している。また、（式４）における変数ｊの範囲は、１～全クラス数である。

そして、（式３）に従って求めたソフトターゲット損失soft_target_lossに基づいて生徒モデル５０４のパラメータを更新することで、該生徒モデル５０４の学習を行う。つまり、ソフトターゲット損失soft_target_lossを生徒モデル５０４の学習にフィードバックする。

なお、生徒モデル５０４の学習には、通常の教師データをさらに用いてもよい。つまり、ソフトターゲットを用いて学習を行った生徒モデルを、教師モデルの学習時に用いた教師データを用いて再学習するようにしても良い。

図５では、教師データの分布（ハードターゲット）５０７を示している。分布５０７においては、正解クラスに相当する「ｃａｔ」（これをｋ番目のクラスとする）のみの尤度が１となり、それ以外のクラスの尤度は０である。この場合には、以下の（式５）に従ってハードターゲット損失ｈａｒｄ＿ｔａｒｇｅｔ＿ｌｏｓｓを求める。

ここで、生徒モデル５０４の出力値ｒ_ｉは、以下の（式６）に従って求めることができる。

ここで、ｖ_ｉは、生徒モデル５０４において、ｉ番目のクラスに対応する温度付ソフトマックス関数への入力値を示しており、ｖ_ｊは、生徒モデル５０４において、ｊ番目のクラスに対応する温度付ソフトマックス関数への入力値を示している。また、（式６）における変数ｊの範囲は、１～全クラス数である。そして、このハードターゲット損失ｈａｒｄ＿ｔａｒｇｅｔ＿ｌｏｓｓを生徒モデル５０４の学習にフィードバックする。

以上説明した、従来技術である蒸留学習においては、教師モデルと生徒モデルに異なるモデルを使用したが、本実施形態に係る自己蒸留学習においては、教師モデルと生徒モデルとに同じモデル、或いは少なくとも部分的に同じモデルを使用する。但し、ステップＳ１０４では、教師モデルと生徒モデルとで、系に異なる揺らぎを与えることにより、蒸留学習を進展させる。ここで系に与える揺らぎとは、例えば温度付ソフトマックス関数の温度の揺らぎや、モデルの構成の一部を変化させる様な揺らぎ、或いは、モデルへの入力データに印加した揺らぎ等である。本実施形態では、温度付ソフトマックス関数の温度の揺らぎを使用した自己蒸留学習の事例について、図３のフローチャート（ステップＳ１０４における処理の詳細を示すフローチャート）を用いて説明する。

ステップＳ２０１では、揺らぎ付与部１０６は、教師モデルおよび生徒モデルのそれぞれに与える揺らぎを設定する。ステップＳ２０１における処理について、図６を例に取り説明する。

図６（ａ）は、教師モデルの温度付ソフトマックス関数に設定する教師温度の分布を模式的に示した図である。横軸は教師温度を表しており、縦軸は頻度を表している。参照番号６０１は、温度揺らぎにおける中心温度Ｔｃを示しており、参照番号６０２は、温度揺らぎの標準偏差σ_Ｔを示している。この温度揺らぎは、中心温度Ｔｃを平均値とし、σ_Ｔを標準偏差とするガウス分布に従った温度の揺らぎであり、温度をＴとすると、その確率分布ｆ_Ｔ（Ｔ）は、以下の（式７）に従う。

然るに、揺らぎ付与部１０６は、図６（ｃ）に示す如く、生徒モデルの学習回数がＬＮ回増加するたびに、「中心温度Ｔｃを平均値とし、σ_Ｔを標準偏差とするガウス分布である確率分布ｆ_Ｔ（Ｔ）」に従って発生させた乱数（温度Ｔ）を教師温度に設定する。これにより、揺らぎ付与部１０６は、生徒モデルの学習において教師温度に揺らぎを付与することができる。

図６（ｂ）は、生徒モデルの温度付ソフトマックス関数に設定する生徒温度の分布を模式的に示した図である。横軸は生徒温度を表しており、縦軸は頻度を表している。参照番号６０３は、温度揺らぎにおける中心温度Ｔｃを示しており、参照番号６０４は、温度揺らぎの標準偏差σ_Ｓを示している。この温度揺らぎは、中心温度Ｔｃを平均値とし、σ_Ｓを標準偏差とするガウス分布をしており、温度をＴとすると、その確率分布ｆ_Ｓ（Ｔ）は、以下の（式８）に従う。

然るに、揺らぎ付与部１０６は、図６（ｄ）に示す如く、生徒モデルの学習回数がＬＮ回増加するたびに、「中心温度Ｔｃを平均値とし、σ_Ｓを標準偏差とするガウス分布である確率分布ｆ_Ｓ（Ｔ）」に従って発生させた乱数（温度Ｔ）を生徒温度に設定する。これにより、揺らぎ付与部１０６は、生徒モデルの学習において生徒温度に揺らぎを付与することができる。

よって、ステップＳ２０１では、揺らぎ付与部１０６は、確率分布ｆ_Ｔ（Ｔ）に従って発生させた乱数（温度Ｔ）を教師温度に設定する。また、揺らぎ付与部１０６は、確率分布ｆ_Ｓ（Ｔ）に従って発生させた乱数（温度Ｔ）を生徒温度に設定する。

なお、ここでは、教師温度および生徒温度の両方に揺らぎを付与する例について説明したが、教師温度および生徒温度の両方に揺らぎを付与することに限らず、いずれか一方のみに揺らぎを付与するようにしても良い。

ステップＳ２０２で学習部１０４はステップＳ１０２で記憶部１０３から読み出した教師モデル４０１に、記憶部１０１に格納されている学習データに含まれている学習対象のデータを入力し、教師モデル４０１の出力値４０５をソフトターゲットとして求める。

ステップＳ２０３では、学習部１０４は、ステップＳ１０３においてパラメータの初期値が設定された生徒モデル４０２に、記憶部１０１に格納されている学習データに含まれている学習対象のデータ（ステップＳ２０２で教師モデルに入力した学習対象のデータと同じ学習対象のデータ）を入力して、該生徒モデル４０２の出力値４０６を求める。

ステップＳ２０４では、学習部１０４は、ステップＳ２０２で求めたソフトターゲットである出力値４０５と、ステップＳ２０３で求めた出力値４０６と、を用いてソフトターゲット損失を求める。そして学習部１０４は、該求めたソフトターゲット損失を生徒モデルの学習にフィードバックして、生徒モデルのパラメータを更新することで、生徒モデルの学習（ソフトターゲット学習１）を行う。

このソフトターゲット損失は、温度揺らぎがなければ０になり、学習は進展しないが、温度揺らぎを与えることによってソフトターゲット損失が０にはならず、学習が進展する。また、ソフトターゲット損失の値をモニターすることにより、その値が小さすぎて学習の進展が遅い場合には、設定する温度揺らぎを更に大きくする（例えば上記の標準偏差をより大きくする）ことも可能である。

ステップＳ２０５では、学習部１０４は、生徒モデルの学習（生徒モデルの自己蒸留学習）の終了条件が満たされたか否かを判断する。終了条件は、例えば、「生徒モデルの学習回数（ステップＳ２０１～Ｓ２０４のループ回数）が閾値を超えた」、「生徒モデルの学習を開始してからの経過時間が閾値を超えた」、「ソフトターゲット損失の変化量が規定量以下」、などがある。

このような判断の結果、終了条件が満たされた場合には、処理はステップＳ１０５に進む。一方、終了条件が満たされていない場合には、処理はステップＳ２０１に進む。処理がステップＳ１０５に進んだ時点で、ソフトターゲット学習１による学習済みの学習モデルである生徒モデル４０３が得られる。

ステップＳ１０５では、学習部１０４は、ソフトターゲット学習１による学習済みの学習モデルである生徒モデル４０３に、学習データに含まれている学習対象のデータのうち所望の学習対象のデータ（再学習させたい学習対象のデータ）を入力し、上記の（式６）に従って、該生徒モデル４０３の出力値を求める。そして学習部１０４は、該出力値を用いて上記の（式５）に従ってハードターゲット損失を求め、該求めたハードターゲット損失を生徒モデルの学習にフィードバックして、生徒モデルのパラメータを更新することで、生徒モデルの学習（ハードターゲット学習１）を行う。なお、ハードターゲット学習１は必須ではなく、適宜省いても良い。

ステップＳ１０６では、学習部１０４は、生徒モデルの学習（生徒モデルの自己蒸留学習）の終了条件が満たされたか否かを判断する。終了条件は、例えば、「生徒モデルの学習回数（ステップＳ１０２～Ｓ１０５のループ回数）が閾値を超えた」、「生徒モデルの学習を開始してからの経過時間が閾値を超えた」、「ハードターゲット損失の変化量が規定量以下」、などがある。また、終了条件には、「評価用のデータを入力した生徒モデルの出力値に基づいて評価した該生徒モデルの性能が一定以上であることを表すデータが得られた場合」もある。

このような判断の結果、終了条件が満たされた場合には、学習部１０４は、学習済みの学習モデルである生徒モデル４０４を記憶部１０５に格納し、図２のフローチャートに従った処理は終了する。一方、終了条件が満たされていない場合には、処理はステップＳ１０２に進む。このように、本実施形態によれば、より効率的に生徒モデルの蒸留学習を進展させることが可能となる。

［第２の実施形態］
本実施形態以降では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。本実施形態では、教師モデルおよび生徒モデルの最終出力層の活性化関数に温度付ソフトマックス関数を用いた場合において、教師モデルと生徒モデルとで異なる性質の温度揺らぎを与える事例について説明する。これにより、より効率的に自己蒸留学習を進展させることが可能となる。図７（ａ）～（ｄ）は、本実施形態で設定する温度付ソフトマックス関数の温度揺らぎの様子を模式的に示した図である。

図７（ａ）は、教師モデルの温度付ソフトマックス関数に設定する教師温度の分布を模式的に示した図である。横軸は教師温度を表しており、縦軸は頻度を表している。参照番号７０１は、温度揺らぎにおける中心温度Ｔｃを示しており、参照番号７０２は、温度揺らぎの標準偏差σ’_Ｔを示している。この温度揺らぎは、中心温度Ｔｃを平均値とし、σ’_Ｔを標準偏差とするガウス分布に従った温度の揺らぎであり、温度をＴとすると、その確率分布ｆ_Ｔ（Ｔ）は、以下の（式９）に従う。

但し、σ’_Ｔは、以下の（式１０）に従って変動する。

ここで、Ｎは現在の学習回数を示しており、ω_Ｔは、与える変動の周波数を示している。また、Ｎｍａｘは、予め定められた学習回数の最大値（最大学習回数）を示しており、σ_Ｔは、標準偏差σ’_Ｔの最大値を示している。

図７（ｂ）は、生徒モデルの温度付ソフトマックス関数に設定する生徒温度の分布を模式的に示した図である。横軸は生徒温度を表しており、縦軸は頻度を表している。参照番号７０３は、温度揺らぎにおける中心温度Ｔｃを示しており、参照番号７０４は、温度揺らぎの標準偏差σ’_Ｓを示している。この温度揺らぎは、中心温度Ｔｃを平均値とし、σ’_Ｓを標準偏差とするガウス分布に従った温度の揺らぎであり、温度をＴとすると、その確率分布ｆ_Ｓ（Ｔ）は、以下の（式１１）に従う。

但し、σ’_Ｓは、以下の（式１２）に従って変動する。

ここで、Ｎは現在の学習回数を示しており、ω_Ｓは、与える変動の周波数を示している。また、Ｎｍａｘは、予め定められた学習回数の最大値（最大学習回数）を示しており、σ_Ｓは、標準偏差σ’_Ｓの最大値を示している。

図７（ｃ）は、教師モデルの温度付ソフトマックス関数に設定する教師温度の時間変化（学習の過程で与える変化）の範囲（つまり、温度揺らぎの標準偏差σ’_Ｔ）を模式的に示した図である。横軸は学習回数を、縦軸は教師温度を表している。参照番号７０１’は、中心温度Ｔｃを示しており、参照番号７０２’は、温度揺らぎの標準偏差σ’_Ｔの大きさの変化を示している。

図７（ｄ）は、生徒モデルの温度付ソフトマックス関数に設定する生徒温度の時間変化（学習の過程で与える変化）の範囲（つまり、温度揺らぎの標準偏差σ’_Ｓ）を模式的に示した図である。横軸は学習回数を、縦軸は生徒温度を表している。参照番号７０３’は、中心温度Ｔｃを示しており、参照番号７０４’は、温度揺らぎの標準偏差σ’_Ｓの大きさの変化を示している。

なお、本実施形態では、標準偏差の最大値σ_Ｔおよびσ_Ｓは、学習回数の増加に応じて、徐々に小さくなるように設定してもよい。このように、それぞれの標準偏差を制御するための方法には様々な方法があり、特定の制御方法に限らない。また、確率分布において制御するパラメータは標準偏差に限らない。

このように、本実施形態では、教師モデルと生徒モデルとで、設定する温度揺らぎの位相がずれることにより、より大きなフィードバックが学習に寄与しうる。それにより、より効率的に自己蒸留学習を進展させることが可能となる。

［第３の実施形態］
本実施形態では、教師モデルおよび生徒モデルのそれぞれの構成（モデル構成）に揺らぎを与える事例について説明する。モデル構成の揺らぎとして、以下ではＣＮＮのフルコネクト層をドロップアウト（フルコネクト層におけるニューロン間の結合のうちドロップアウト率に応じた数の結合を削除する（重み係数の値を０にする））させる事例を想定した説明を行う。しかし、モデル構成に与える揺らぎはこれに限定されるものではない。また、フルコネクト層のドロップアウトは、平均的にはランダムに行われるものとする。これにより、より効率的に自己蒸留学習を進展させることが可能となる。

図８は、教師モデルおよび生徒モデルのそれぞれのモデル構成に揺らぎを与える工程を模式的に示す図である。以下の説明においては、図８を用いて、モデル構成の揺らぎを使用した自己蒸留学習の事例を、図３のフローチャートを併用して説明する。

ステップＳ２０１では、揺らぎ付与部１０６は、ハードターゲット学習０を行った教師モデル８０１、パラメータが初期化された生徒モデル８０２、のそれぞれに揺らぎを設定する。具体的には、教師モデル８０１および生徒モデル８０２のそれぞれにドロップアウト率を設定する。揺らぎ付与部１０６は、教師モデル８０１と生徒モデル８０２とで同じドロップアウト率を設定しても良いし、教師モデル８０１と生徒モデル８０２とで異なるドロップアウト率を設定しても良い。また、揺らぎ付与部１０６は、教師モデル８０１のドロップアウト率および／または生徒モデル８０２のドロップアウト率を学習回数に応じて変化させても良い。なお、ドロップアウト率はどのように決めても良く、たとえば、上記の確率分布に従って発生させた乱数（０～１の範囲内の実数）をドロップアウト率としても良い。

そして揺らぎ付与部１０６は、教師モデル８０１にドロップアウト率ｒ１（ｒ１は０＜ｒ１＜１を満たす実数）を設定した場合、該教師モデル８０１のフルコネクト層におけるニューロン間の結合数の（１００ｘｒ１）％に相当するいずれかの結合を０にする（ドロップアウトする）。フルコネクト層８０５は、教師モデル８０１に対してドロップアウトを行った結果得られる、フルコネクト層である。

また、揺らぎ付与部１０６は、生徒モデル８０２にドロップアウト率ｒ２（ｒ２は０＜ｒ２＜１を満たす実数）を設定した場合、該生徒モデル８０２のフルコネクト層におけるニューロン間の結合数の（１００ｘｒ２）％に相当するいずれかの結合を０にする（ドロップアウトする）。フルコネクト層８０６は、生徒モデル８０２に対してドロップアウトを行った結果得られるフルコネクト層である。

ステップＳ２０２では、学習部１０４は、ドロップアウト済みの教師モデル８０１に、記憶部１０１に格納されている学習データに含まれている学習対象のデータを入力して、該教師モデル８０１の出力値を、ソフトターゲットとして求める。

ステップＳ２０３では、学習部１０４は、ドロップアウト済みの生徒モデル８０２に、記憶部１０１に格納されている学習データに含まれている学習対象のデータ（ステップＳ２０２で教師モデルに入力した学習対象のデータと同じ学習対象のデータ）を入力して、該生徒モデル８０２の出力値を求める。

ステップＳ２０４では、学習部１０４は、ステップＳ２０２で求めたソフトターゲットである出力値と、ステップＳ２０３で求めた出力値と、を用いてソフトターゲット損失を求める。そして学習部１０４は、該求めたソフトターゲット損失を生徒モデルの学習にフィードバックして、生徒モデルのパラメータを更新することで、生徒モデルの学習（ソフトターゲット学習１）を行う。

教師モデルと生徒モデルとでモデル構成が一部異なることに起因し、ソフトターゲット損失は０にはならず、それが生徒モデルの学習にフィードバックされる（ネットワークのパラメータが更新される）。

ステップＳ２０５では、学習部１０４は、生徒モデルの学習（生徒モデルの自己蒸留学習）の終了条件が満たされたか否かを判断する。このような判断の結果、終了条件が満たされた場合には、処理はステップＳ１０５に進む。一方、終了条件が満たされていない場合には、処理はステップＳ２０１に進む。処理がステップＳ１０５に進んだ時点で、ソフトターゲット学習１による学習済みの学習モデルである生徒モデル８０３が得られる。

なお、ステップＳ１０５では、学習部１０４は、ソフトターゲット学習１による学習済みの学習モデルである生徒モデル８０３に、学習データに含まれている学習対象のデータのうち所望の学習対象のデータ（再学習させたい学習対象のデータ）を入力し、上記の（式６）に従って、該生徒モデル８０３の出力値を求める。そして学習部１０４は、該出力値を用いて上記の（式５）に従ってハードターゲット損失を求め、該求めたハードターゲット損失を生徒モデルの学習にフィードバックして、生徒モデルのパラメータを更新することで、生徒モデルの学習（ハードターゲット学習１）を行う。なお、ハードターゲット学習１は必須ではなく、適宜省いても良い。

ステップＳ１０６では、学習部１０４は、生徒モデルの学習（生徒モデルの自己蒸留学習）の終了条件が満たされたか否かを判断する。このような判断の結果、終了条件が満たされた場合には、学習部１０４は、学習済みの生徒モデル８０４を記憶部１０５に格納し、図２のフローチャートに従った処理は終了する。一方、終了条件が満たされていない場合には、処理はステップＳ１０２に進む。

このように、教師モデルと生徒モデルとでモデル構成が一部異なることが、学習へのフィードバックを生む。それにより、より効率的に自己蒸留学習を進展させることが可能となる。

［第４の実施形態］
本実施形態では、複数の生徒モデルを自己蒸留学習により生成する事例について説明する。これにより、より効率的に複数の生徒モデルの学習を行って生成することが可能となる。

図９は、複数の生徒モデルを自己蒸留学習により生成する工程を模式的に示した図である。以下の説明においては、図９を用いて、複数の生徒モデルを自己蒸留学習により生成する事例を、図３のフローチャートを併用して説明する。ここで、枠９０１内には、複数の生徒モデルを自己蒸留学習により生成する過程を模式的に示しており、枠９０２内には、生徒モデル９０４の学習過程をより詳細に示している。

ステップＳ２０１では、第１の実施形態と同様に、揺らぎ付与部１０６は、確率分布ｆ_Ｔ（Ｔ）に従って発生させた乱数を教師温度に設定し、確率分布ｆ_Ｓ（Ｔ）に従って発生させた乱数を生徒温度に設定する。

ステップＳ２０２では、学習部１０４は、ステップＳ１０２において記憶部１０３から読み出した教師モデル９０３に、記憶部１０１に格納されている学習データに含まれている学習対象のデータを入力して、該教師モデル９０３の出力値を、ソフトターゲットとして求める。なお、教師モデル９０３は、ハードターゲット学習０による学習済みのモデルである。

ステップＳ２０３では、学習部１０４は、ステップＳ１０３においてパラメータの初期値が設定された生徒モデル９０６に、記憶部１０１に格納されている学習データに含まれている学習対象のデータ（ステップＳ２０２で教師モデルに入力した学習対象のデータと同じ学習対象のデータ）を入力して、該生徒モデル９０６の出力値を求める。

ステップＳ２０４では、学習部１０４は、ステップＳ２０２で求めたソフトターゲットである出力値と、ステップＳ２０３で求めた出力値と、を用いてソフトターゲット損失を求める。そして学習部１０４は、該求めたソフトターゲット損失を生徒モデル９０６の学習にフィードバックして、該生徒モデル９０６のパラメータを更新することで、生徒モデル９０７を生成する（ソフトターゲット学習１）。

ステップＳ２０５では、学習部１０４は、生徒モデルの学習の終了条件が満たされたか否かを判断する。このような判断の結果、終了条件が満たされた場合には、処理はステップＳ１０５に進む。一方、終了条件が満たされていない場合には、処理はステップＳ２０１に進む。処理がステップＳ１０５に進んだ時点で、ソフトターゲット学習１による学習済みの学習モデルである生徒モデル９０７が得られる。

なお、ステップＳ１０５では、学習部１０４は、ソフトターゲット学習１による学習済みの学習モデルである生徒モデル９０７に、学習データに含まれている学習対象のデータのうち所望の学習対象のデータ（再学習させたい学習対象のデータ）を入力し、上記の（式６）に従って、該生徒モデル９０７の出力値を求める。そして学習部１０４は、該出力値を用いて上記の（式５）に従ってハードターゲット損失を求め、該求めたハードターゲット損失を生徒モデルの学習にフィードバックして、生徒モデルのパラメータを更新することで、生徒モデルの学習（ハードターゲット学習１）を行う。なお、ハードターゲット学習１は必須ではなく、適宜省いても良い。

ステップＳ１０６では、学習部１０４は、生徒モデルの学習（生徒モデルの自己蒸留学習）の終了条件が満たされたか否かを判断する。このような判断の結果、終了条件が満たされた場合には、学習部１０４は、学習済みの生徒モデル９０４を記憶部１０５に格納し、図２のフローチャートに従った処理は終了する。一方、終了条件が満たされていない場合には、処理はステップＳ１０２に進む。

以上で説明した様な、ソフトターゲット学習１とハードターゲット学習１を用いた自己蒸留学習１によって、生徒モデル９０４が生成される。そして、生徒モデル９０４のパラメータが初期値として設定された生徒モデルについて、自己蒸留学習１と同様のソフトターゲット学習と、ハードターゲット学習１と同様のハードターゲット学習と、を行うことによって（これを自己蒸留学習２とする）、生徒モデル９０５が生成される。この生徒モデル９０５の学習は、生徒モデル９０４を初期値とすることによって、ランダム値を初期値として学習するよりも、より効率的に学習を進展させることができる。以上の自己蒸留学習をＮ回反復した場合には、Ｎ個の生徒モデルが生成される。推論の際には、Ｎ個の生徒モデルの出力のアンサンブルを行えばよい。

［第５の実施形態］
本実施形態では、生徒モデルの学習において該生徒モデルや教師モデルに入力する学習対象のデータに揺らぎを付与する事例について説明する。これにより、より効率的に自己蒸留学習を進展させることが可能となる。

生徒モデルの学習において該生徒モデルに入力する学習対象のデータとしての画像に揺らぎを与えて該生徒モデルの自己蒸留学習を行うケースについて、図１０を用いて説明する。

画像１００１は、動物であるネコの画像であり、教師モデル１１０３に入力される学習対象のデータである。また、画像１００２は、動物であるネコの画像であり、生徒モデル１１０４に入力される学習対象のデータである。画像１１０２における一部もしくは全部の画素の画素値には、揺らぎが付与されている。付与する揺らぎは、中心画素値Ｉ_Ｃを平均値とし、σ_ＳＩを標準偏差とするガウス分布に従っており、画素値をＩとすると、その確率分布ｆ_ＳＩ（Ｉ）は、以下の（式１３）に従う。

然るに、揺らぎ付与部１０６は、生徒モデルの学習回数がＬＮ回増加するたびに、画像の一部もしくは全ての画素について、「中心画素値Ｉ_Ｃを平均値とし、σ_ＳＩを標準偏差とするガウス分布である確率分布ｆ_ＳＩ（Ｉ）」に従って発生させた乱数（画素値Ｉ）を該画素の画素値に設定することで画像１００２を生成する。これにより、揺らぎ付与部１０６は、生徒モデルの学習において該生徒モデルに入力する画像に揺らぎを付与することができる。なお、画像がＲＧＢ画像である場合には、ＲＧＢのそれぞれの画素値に揺らぎを与える。

なお、図１０の教師モデル１００３と生徒モデル１００４は、少なくとも一部は同様の構成を有するネットワークモデルである。ここでは、両者にＶＧＧを用いている。以下においては、教師モデルおよび生徒モデルのそれぞれの最終出力層の活性化関数に温度付ソフトマックス関数を用いた場合の説明を行う。

画像１００１を入力した教師モデル１００３からは、クラスごとの出力値（該クラスに対する尤度）の分布（ソフトターゲット）１００５が出力される。一方、画像１００２を入力した生徒モデル１００４からは、クラスごとの出力値（該クラスに対する尤度）の分布１００６が出力される。

そして、第１の実施形態と同様にして、教師モデル１００３の出力値（尤度）と生徒モデル１００４の出力値（尤度）とからソフトターゲット損失soft_target_lossを求める。そして、第１の実施形態と同様にして、ソフトターゲット損失soft_target_lossに基づいて生徒モデル１００４のパラメータを更新することで、該生徒モデル１００４の学習（ソフトターゲット学習）を行う。同じネットワーク構成とパラメータを有する教師モデルと生徒モデルであっても、入力データが異なればソフトターゲット損失は０にはならず、学習へのフィードバックが存在し、学習が進展することになる。

そして、第１の実施形態と同様にして、ソフトターゲット学習による学習済みの学習モデルである生徒モデル１００４に、学習データに含まれている学習対象のデータのうち所望の学習対象のデータ（再学習させたい学習対象のデータ）を入力し、上記の（式６）に従って、該生徒モデル１００４の出力値を求める。そして、該出力値を用いて上記の（式５）に従ってハードターゲット損失を求め、該求めたハードターゲット損失を生徒モデルの学習にフィードバックして、生徒モデルのパラメータを更新することで、生徒モデルの学習（ハードターゲット学習）を行う。なお、ハードターゲット学習は必須ではなく、適宜省いても良い。

この様に、教師モデルと生徒モデルとで、入力データが一部異なることが、学習へのフィードバックを生む。それにより、より効率的に自己蒸留学習を進展させることが可能となる。

同規模のモデルにおいて、揺らぎを用いた自己蒸留学習を行うことによって、より低コストで蒸留学習及び推論を行うことができる方法及び装置を提供することを目的とするものであり、その目的に合致する限り、いかなる手法や対象にも適用可能である。

本実施形態では、生徒モデル１００４に入力する画像１００２における一部もしくは全ての画素の画素値に揺らぎを与え、教師モデル１００３に入力する画像１００１における一部もしくは全ての画素の画素値には揺らぎを与えていない。しかし、これに限らず、画像１００１における一部もしくは全ての画素の画素値に揺らぎを与えても良い。

また、本実施形態は、第１～４の実施形態の１以上と組み合わせることができる。例えば、温度（教師温度や生徒温度）に揺らぎを付与すると共に、教師モデルや生徒モデルに入力する画像にも揺らぎを付与するようにしても良い。また例えば、教師モデルや生徒モデルの構成に揺らぎを付与すると共に、教師モデルや生徒モデルに入力する画像にも揺らぎを付与するようにしても良い。

［第６の実施形態］
図１に示した機能部はハードウェアで実装しても良いし、記憶部１０１，１０３，１０５を除く他の機能部をソフトウェア（コンピュータプログラム）で実装しても良い。後者の場合、このようなコンピュータプログラムを実行可能なコンピュータ装置は、上記の学習装置に適用可能である。学習装置に適用可能なコンピュータ装置のハードウェア構成例について、図１１のブロック図を用いて説明する。

ＣＰＵ１１０１は、ＲＡＭ１１０２やＲＯＭ１１０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１１０１は、コンピュータ装置全体の動作制御を行うと共に、上記の学習装置が行う処理として説明した各種の処理を実行もしくは制御する。

ＲＡＭ１１０２は、ＲＯＭ１１０３や外部記憶装置１１０６からロードされたコンピュータプログラムやデータを格納するためのエリア、Ｉ／Ｆ１１０７を介して外部から受信したコンピュータプログラムやデータを格納するためのエリア、を有する。さらにＲＡＭ１１０２は、ＣＰＵ１１０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１１０２は、各種のエリアを適宜提供することができる。

ＲＯＭ１１０３には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。

操作部１１０４は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示やデータを入力することができる。例えば、ユーザは操作部１１０４を操作して、上記の説明において既知の情報として説明した情報（閾値、中心温度、中心画素値、標準偏差、最大学習回数など）を入力することができる。

表示部１１０５は、液晶画面やタッチパネル画面を有し、ＣＰＵ１１０１による処理結果を画像や文字などでもって表示することができる。例えば、表示部１１０５には、学習に係る様々な情報（ソフトターゲット損失、ハードターゲット損失、閾値、中心温度、中心画素値、標準偏差、最大学習回数など）を画像や文字などでもって表示させることができる。これによりユーザは、表示部１１０５に表示された学習の結果を見て、閾値、中心温度、中心画素値、標準偏差、最大学習回数などのパラメータを操作部１１０４を操作して入力する（調整する）こともできる。なお、表示部１１０５は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。

外部記憶装置１１０６は、ハードディスクドライブ装置などの大容量情報記憶装置である。外部記憶装置１１０６には、ＯＳ（オペレーティングシステム）、上記の学習装置が行う処理として説明した各種の処理をＣＰＵ１１０１に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。外部記憶装置１１０６に保存されているコンピュータプログラムやデータは、ＣＰＵ１１０１による制御に従って適宜ＲＡＭ１１０２にロードされ、ＣＰＵ１１０１による処理対象となる。なお、図１に示した記憶部１０１，１０３，１０５はＲＡＭ１１０２や外部記憶装置１１０６等のメモリ装置を用いて実装可能である。

Ｉ／Ｆ１１０７は、外部の装置との間のデータ通信を行うための通信インターフェースである。ＣＰＵ１１０１、ＲＡＭ１１０２、ＲＯＭ１１０３、操作部１１０４、表示部１１０５、外部記憶装置１１０６、Ｉ／Ｆ１１０７はいずれもシステムバス１１０８に接続されている。なお、図１１に示したハードウェア構成は、上記の学習装置に適用可能なコンピュータ装置のハードウェア構成の一例に過ぎず、適宜変形／変更が可能である。

また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の取得方法／送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の発明は、以下の学習装置、学習方法、コンピュータプログラムを含む。

（項目１）
第１学習モデルの出力を用いた蒸留学習により、該第１学習モデルと少なくとも部分的に同じ構成を有する第２学習モデルの学習を行う学習手段と、
前記第２学習モデルの学習中に、前記第１学習モデルのパラメータ、前記第１学習モデルの構成、前記第２学習モデルのパラメータ、前記第２学習モデルの構成、のうち１以上を動的に変化させる制御手段と
を備えることを特徴とする学習装置。

（項目２）
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を動的に変化させることを特徴とする項目１に記載の学習装置。

（項目３）
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を、ガウス分布に従った温度の揺らぎに応じて動的に変化させることを特徴とする項目２に記載の学習装置。

（項目４）
前記制御手段は、前記第２学習モデルの学習回数に応じて、前記ガウス分布のパラメータを動的に変化させることを特徴とする項目３に記載の学習装置。

（項目５）
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルのフルコネクト層におけるニューロン間の結合を動的に変化させることを特徴とする項目１に記載の学習装置。

（項目６）
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルに入力する画像における一部もしくは全ての画素の画素値を動的に変化させることを特徴とする項目１ないし５のいずれか１項目に記載の学習装置。

（項目７）
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を動的に変化させることを特徴とする項目１に記載の学習装置。

（項目８）
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を、ガウス分布に従った温度の揺らぎに応じて動的に変化させることを特徴とする項目７に記載の学習装置。

（項目９）
前記制御手段は、前記第２学習モデルの学習回数に応じて、前記ガウス分布のパラメータを動的に変化させることを特徴とする項目８に記載の学習装置。

（項目１０）
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルのフルコネクト層におけるニューロン間の結合を動的に変化させることを特徴とする項目１に記載の学習装置。

（項目１１）
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルに入力する画像における一部もしくは全ての画素の画素値を動的に変化させることを特徴とする項目１ないし１０のいずれか１項目に記載の学習装置。

（項目１２）
前記学習手段は、前記第１学習モデルのパラメータを前記第２学習モデルのパラメータの初期値に設定することを特徴とする項目１ないし１１のいずれか１項目に記載の学習装置。

（項目１３）
前記学習手段は、前記第１学習モデルの学習時に用いた教師データを用いて、前記蒸留学習により学習済みの前記第２学習モデルの学習を行うことを特徴とする項目１ないし１２のいずれか１項目に記載の学習装置。

（項目１４）
前記学習手段は、前記学習手段により学習済みの第２学習モデルのパラメータを設定した別の第２学習モデルの学習を、前記第１学習モデルの出力を用いた蒸留学習により行うことを特徴とする項目１ないし１３のいずれか１項目に記載の学習装置。

（項目１５）
前記第１学習モデルは学習済みのモデルであることを特徴とする項目１ないし１４のいずれか１項目に記載の学習装置。

（項目１６）
学習装置が行う学習方法であって、
前記学習装置の学習手段が、第１学習モデルの出力を用いた蒸留学習により、該第１学習モデルと少なくとも部分的に同じ構成を有する第２学習モデルの学習を行う学習工程と、
前記学習装置の制御手段が、前記第２学習モデルの学習中に、前記第１学習モデルのパラメータ、前記第１学習モデルの構成、前記第２学習モデルのパラメータ、前記第２学習モデルの構成、のうち１以上を動的に変化させる制御工程と
を備えることを特徴とする学習方法。

（項目１７）
コンピュータを、項目１ないし１５のいずれか１項目に記載の学習装置の各手段として機能させるためのコンピュータプログラム。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：記憶部１０２：学習部１０３：記憶部１０４：学習部１０５：記憶部１０６：揺らぎ付与部

Claims

第１学習モデルの出力を用いた蒸留学習により、該第１学習モデルと少なくとも部分的に同じ構成を有する第２学習モデルの学習を行う学習手段と、
前記第２学習モデルの学習中に、前記第１学習モデルのパラメータ、前記第１学習モデルの構成、前記第２学習モデルのパラメータ、前記第２学習モデルの構成、のうち１以上を動的に変化させる制御手段と
を備えることを特徴とする学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を動的に変化させることを特徴とする請求項１に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を、ガウス分布に従った温度の揺らぎに応じて動的に変化させることを特徴とする請求項２に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習回数に応じて、前記ガウス分布のパラメータを動的に変化させることを特徴とする請求項３に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルのフルコネクト層におけるニューロン間の結合を動的に変化させることを特徴とする請求項１に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第１学習モデルに入力する画像における一部もしくは全ての画素の画素値を動的に変化させることを特徴とする請求項１に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を動的に変化させることを特徴とする請求項１に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルの最終出力層の活性化関数である温度付きソフトマックス関数の温度を、ガウス分布に従った温度の揺らぎに応じて動的に変化させることを特徴とする請求項７に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習回数に応じて、前記ガウス分布のパラメータを動的に変化させることを特徴とする請求項８に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルのフルコネクト層におけるニューロン間の結合を動的に変化させることを特徴とする請求項１に記載の学習装置。
前記制御手段は、前記第２学習モデルの学習中に、前記第２学習モデルに入力する画像における一部もしくは全ての画素の画素値を動的に変化させることを特徴とする請求項１に記載の学習装置。
前記学習手段は、前記第１学習モデルのパラメータを前記第２学習モデルのパラメータの初期値に設定することを特徴とする請求項１に記載の学習装置。
前記学習手段は、前記第１学習モデルの学習時に用いた教師データを用いて、前記蒸留学習により学習済みの前記第２学習モデルの学習を行うことを特徴とする請求項１に記載の学習装置。
前記学習手段は、前記学習手段により学習済みの第２学習モデルのパラメータを設定した別の第２学習モデルの学習を、前記第１学習モデルの出力を用いた蒸留学習により行うことを特徴とする請求項１に記載の学習装置。
前記第１学習モデルは学習済みのモデルであることを特徴とする請求項１に記載の学習装置。
学習装置が行う学習方法であって、
前記学習装置の学習手段が、第１学習モデルの出力を用いた蒸留学習により、該第１学習モデルと少なくとも部分的に同じ構成を有する第２学習モデルの学習を行う学習工程と、
前記学習装置の制御手段が、前記第２学習モデルの学習中に、前記第１学習モデルのパラメータ、前記第１学習モデルの構成、前記第２学習モデルのパラメータ、前記第２学習モデルの構成、のうち１以上を動的に変化させる制御工程と
を備えることを特徴とする学習方法。
コンピュータを、請求項１ないし１５のいずれか１項に記載の学習装置の各手段として機能させるためのコンピュータプログラム。