JP2019046236A

JP2019046236A - 学習装置、情報処理装置、学習方法およびプログラム

Info

Publication number: JP2019046236A
Application number: JP2017169448A
Authority: JP
Inventors: 健太郎高木; Kentaro Takagi; 康太中田; Kota Nakata
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2019-03-22
Anticipated expiration: 2037-09-04
Also published as: JP6773618B2; US20190073587A1

Abstract

【課題】ハイパーパラメータを決定するための計算コストを低減する。
【解決手段】学習装置は、算出部と、学習部と、を備える。算出部は、モデルの出力の局所分布の滑らかさを表す平滑度を含み、モデルを定める第１モデルパラメータを推定するための第１目的関数の値と、第１目的関数を利用してモデルを学習する学習方法のハイパーパラメータを第２モデルパラメータとして、学習データの距離スケールにより近い第２モデルパラメータを推定するための第２目的関数の値と、を算出する。学習部は、第１目的関数の値および第２目的関数の値を最適化するように第１モデルパラメータおよび第２モデルパラメータを更新する。
【選択図】図１

Description

本発明の実施形態は、学習装置、情報処理装置、学習方法およびプログラムに関する。

機械学習に関して、高精度な分類器や回帰を学習するために、モデルのハイパーパラメータを自動チューニングする技術、および、目的関数に正則化項を加える技術が提案されている。

特表２０１６−５２３４０２号公報

Takeru Miyato1, Shin-ichi Maeda1, Masanori Koyama1, Ken Nakae1 & Shin Ishii，"DISTRIBUTIONAL SMOOTHING WITH VIRTUAL ADVERSARIAL TRAINING"，arXiv:1507.00677v9，11 Jun 2016．

しかしながら、従来技術では、ハイパーパラメータを決定するための計算コストが高いという問題があった。

実施形態の学習装置は、算出部と、学習部と、を備える。算出部は、モデルの出力の局所分布の滑らかさを表す平滑度を含み、モデルを定める第１モデルパラメータを推定するための第１目的関数の値と、第１目的関数を利用してモデルを学習する学習方法のハイパーパラメータを第２モデルパラメータとして、学習データの距離スケールにより近い第２モデルパラメータを推定するための第２目的関数の値と、を算出する。学習部は、第１目的関数の値および第２目的関数の値を最適化するように第１モデルパラメータおよび第２モデルパラメータを更新する。

第１の実施形態にかかる学習装置を含む情報処理装置のブロック図。第１の実施形態における学習処理のフローチャート。算出部による算出処理のフローチャート。第２の実施形態にかかる学習装置を含む情報処理装置のブロック図。第２の実施形態における算出処理のフローチャート。第３の実施形態にかかる学習装置を含む情報処理装置のブロック図。第１から第３の実施形態にかかる装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる学習装置の好適な実施形態を詳細に説明する。

ハイパーパラメータは、設定可能な範囲が広く、精度への影響も大きい場合がある。このため、従来は、グリッドサーチおよびベイズ最適化等によりハイパーパラメータが決定されていた。このような方法では、複数回、学習が実行され、その結果により最適なハイパーパラメータが決定される。このため、ハイパーパラメータを決定するための計算コストが高くなる。

以下の各実施形態では、ハイパーパラメータに関する目的関数を導入してモデルの学習と同時にハイパーパラメータを学習する。これにより、ハイパーパラメータを手動で設定する必要がなくなる。また、例えば１回のモデルの学習で同時にハイパーパラメータも学習できるため、ハイパーパラメータを決定するための計算コストが低減できる。また、より精度が高いモデルを学習することが可能となる。

以下に説明する本実施形態は、機械学習モデルとしてニューラルネットワークを利用し、ＶＡＴ（Virtual Adversarial Training）法によりモデルを学習する場合を例に説明する。適用可能なモデルは、ニューラルネットワークに限られるものではない。また適用可能な学習方法は、ＶＡＴ法に限られるものではない。例えば、勾配ブースティングなどの他の学習方法を用いてもよい。例えば、ＳＶＭ（サポートベクターマシン）などを用いてもよい。

（第１の実施形態）
図１は、第１の実施形態にかかる学習装置１００を含む情報処理装置２００の構成の一例を示すブロック図である。情報処理装置２００は、学習装置１００により学習されたモデルを用いた情報処理を実行する装置の例である。情報処理は、モデルを用いた処理であればどのような処理であってもよい。例えば情報処理は、モデルを用いた音声認識、画像認識、および、文字認識などの認識処理であってもよい。また情報処理は、装置の異常予測、および、センサの値（室温など）の予測などの予測処理であってもよい。

図１に示すように、情報処理装置２００は、学習装置１００と、制御部２０１と、を備えている。学習装置１００は、学習データ記憶部１２１と、モデルパラメータ記憶部１２２と、算出部１０１と、学習部１０２と、を備えている。

学習データ記憶部１２１は、機械学習の学習データとして利用される予め用意されたデータセットを記憶する。データセットは、Ｎ個（Ｎは１以上の整数）の入力データｘ^ｉ（ｉ＝１，２，・・・，Ｎ）と、入力データに対する出力ｙ^ｉ（ｉ＝１，２，・・・，Ｎ）と、を含む。例えば画像の分類問題を考える場合、ｘは画像であり、ｙは画像に対する分類ラベルである。

モデルパラメータ記憶部１２２は、機械学習モデルの学習により推定するモデルパラメータφを記憶する。例えばニューラルネットワークの場合、モデルパラメータφは、重み、および、バイアスなどである。例えば、３層のニューラルネットワークＦ（ｘ）は、ｌ層の重みｗ^（ｌ）、バイアスｂ^（ｌ）を用いて以下の（１）式で表される。ここでａ^（ｌ）は、ｌ層の活性化関数を表す。
Ｆ（ｘ）＝ａ^（３）（ｗ^（３）ａ^（２）（ｗ^（２）ａ^（２）（ｗ^（１）ｘ＋ｂ^（１））＋ｂ^（２））＋ｂ^（３））・・・（１）

この場合のモデルパラメータは、｛ｗ^（ｌ），ｂ^（ｌ）；ｌ＝１，２，３｝である。すなわち、モデルパラメータφは以下の（２）式で表される。
φ＝｛ｗ^（ｌ），ｂ^（ｌ）；ｌ＝１，２，３｝・・・（２）

第１の実施形態では、ＶＡＴの学習挙動を制御するハイパーパラメータεを学習により推定する。このため、モデルパラメータ記憶部１２２は、さらにハイパーパラメータεをモデルパラメータとして記憶する。従って本実施形態のモデルパラメータは｛φ，ε｝となる。なおここでのφは式（２）で表される。

なおＶＡＴでは、モデル出力の局所分布の滑らかさを表す平滑度が正則化項として追加される。ハイパーパラメータεは、平滑度を算出するためのハイパーパラメータである。より具体的には、ハイパーパラメータεは、平滑度を算出するときの摂動の上限を示すハイパーパラメータである。ＶＡＴの詳細は後述する。

モデルパラメータ記憶部１２２に記憶するモデルパラメータφ、εの初期値は、ニューラルネットワークのパラメータに対する一般的な初期化方法で初期化する。例えば、モデルパラメータは、定数値、正規分布、および、一様分布等で初期化する。

算出部１０１は、学習時に用いられる目的関数の値（出力値）を算出する。本実施形態では、算出部１０１は、ＶＡＴで用いられる目的関数（第１目的関数）の値に加え、モデルパラメータとしてのハイパーパラメータを推定するための目的関数（第２目的関数）の値を算出する。

第１目的関数は、モデルの出力の局所分布の滑らかさを表す平滑度を含み、モデルを定めるモデルパラメータ（第１モデルパラメータ）を推定するための目的関数である。第２目的関数は、ＶＡＴ（第１目的関数を利用してモデルを学習する学習方法）のハイパーパラメータεをモデルパラメータ（第２モデルパラメータ）とする目的関数である。また、第２目的関数は、学習データの距離スケールにより近い第２モデルパラメータを推定するための目的関数である。

学習部１０２は、学習データを用いてモデル（ニューラルネットワーク）を学習し、モデルパラメータを更新する。例えば学習部１０２は、第１目的関数の値および第２目的関数の値を最適化するように、第１モデルパラメータおよび第２モデルパラメータを学習して更新する。

制御部２０１は、学習されたモデルを用いた情報処理を制御する。例えば制御部２０１は、更新された第１モデルパラメータにより定められるモデル（ニューラルネットワーク）を用いた情報処理を制御する。

上記各部（算出部１０１、学習部１０２、および、制御部２０１）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

学習データ記憶部１２１、および、モデルパラメータ記憶部１２２は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。記憶部は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。

情報処理装置２００は、例えば、ＣＰＵなどのプロセッサを備えるサーバ装置などにより実現してもよい。情報処理装置２００のうち制御部２０１をＣＰＵなどを用いたソフトウェアにより実現し、学習装置１００をハードウェア回路により実現してもよい。情報処理装置２００の全体をハードウェア回路により実現してもよい。

次に、このように構成された第１の実施形態にかかる学習装置１００による学習処理について図２を用いて説明する。図２は、第１の実施形態における学習処理の一例を示すフローチャートである。

学習装置１００は、学習データを受け付け、学習データ記憶部１２１に記憶する（ステップＳ１０１）。また学習装置１００は、初期値を設定したモデルパラメータをモデルパラメータ記憶部１２２に記憶する（ステップＳ１０２）。

算出部１０１は、記憶されたモデルパラメータおよび学習データを利用して、目的関数の値を算出する（ステップＳ１０３）。図３は、算出部１０１による算出処理の一例を示すフローチャートである。

算出部１０１は、機械学習のタスクに応じた目的関数Ｌ_ｔａｓｋの値を算出する（ステップＳ２０１）。例えば、機械学習のタスクが多クラス分類問題の場合、算出部１０１は、交差エントロピーを目的関数Ｌ_ｔａｓｋの値として算出する。

次に算出部１０１は、ＶＡＴで追加される正則化項であるモデル出力の局所分布の滑らかさを表す平滑度Ｌ^ｉ _ａｄｖを算出する（ステップＳ２０２）。平滑度Ｌ^ｉ _ａｄｖは、例えば以下の（３）式〜（５）式により算出される。

ｆ（ｘ^ｉ）はニューラルネットワークの出力である。ＶＡＴを用いる場合、算出部１０１の出力Ｌ（φ）は以下の（６）式により表される。

ステップＳ２０１およびステップＳ２０２で算出される目的関数Ｌ_ｔａｓｋの値、および、平滑度Ｌ^ｉ _ａｄｖは、ＶＡＴで用いられる目的関数（第１目的関数）に相当する。

上述のように、本実施形態では、算出部１０１は、モデルパラメータとしてのハイパーパラメータεを推定するための目的関数（第２目的関数）の値をさらに算出する。例えば算出部１０１は、まず、距離スケールｌ_ｇを以下の（７）式により算出する（ステップＳ２０３）。

ｘ^ｊは、ｘ^ｉ以外の入力データ（第２学習データ）を表す。ｍｉｎは、入力データｘ^ｉ（第１学習データ）ごとに求められる各ｘ^ｊとの距離のうち最小値を表す。記号“＜＞”は、各ｘ^ｉに対して求められた最小値の平均を表す。ｘ^ｊは、入力されたデータのうちｘ^ｉ以外の全データでもよいし、一部のデータでもよい。例えば学習部１０２での更新がミニバッチ単位で実施される場合は、ミニバッチのデータのうちｘ^ｉ以外のデータをｘ^ｊとしてもよい。このように、距離スケールｌ_ｇは、各入力データ（ｘ^ｉ）の隣接点（ｘ^ｊ）との距離の最小値に基づき算出される。

算出部１０１は、距離スケールｌ_ｇの値とハイパーパラメータεの値が近くなるように、ハイパーパラメータεに対する目的関数Ｌ_εを以下の（８）式で算出する（ステップＳ２０４）。目的関数Ｌ_εの値は、距離スケールｌ_ｇとハイパーパラメータεとのずれに相当する。

算出部１０１の出力Ｌ（φ，ε）は、以下の（９）式で表される。

算出部１０１は、（９）式のＬ（φ，ε）の出力値を算出し、目的関数の値として出力し、算出処理を終了する。

図２に戻り、学習部１０２は、算出された目的関数の値を利用して、モデルパラメータを更新する（ステップＳ１０４）。例えば学習部１０２は、確率勾配降下法等を利用して、目的関数Ｌ（φ，ε）の値が小さくなるようにモデルパラメータを更新する。確率勾配降下法を利用した場合の具体的な更新の式は、以下の（１０）式および（１１）式で表される。ここで、γは確率勾配降下法の学習率を表し、添字ｔおよびｔ−１は更新後、更新前を表す。

学習部１０２は、更新したモデルパラメータを例えばモデルパラメータ記憶部１２２に記憶する。学習部１０２は、例えばモデルを用いた処理を実行する外部装置などの、モデルパラメータ記憶部１２２以外の構成部に更新したモデルパラメータを出力してもよい。

その後、学習部１０２は、更新を終了するか（学習を終了するか）否かを判定する（ステップＳ１０５）。更新を終了するかは、例えば、モデルパラメータの値が収束したかなどにより判定される。

更新を続ける場合（ステップＳ１０５：Ｎｏ）、ステップＳ１０３に戻り処理が繰り返される。更新を終了する場合（ステップＳ１０５：Ｙｅｓ）、学習部１０２は、モデルパラメータφおよびεを出力し、学習処理を終了する。

このように、第１の実施形態によれば、ユーザが手動で適切なハイパーパラメータ（εなど）の値を決める必要がなくなり、安定的に精度の高いモデルを学習することが可能となる。

（第２の実施形態）
第１の実施形態では、平滑度は入力データ空間上での変化に対するモデルの出力の滑らかさを表す。一方、入力データ空間よりも射影空間（例えばニューラルネットワークの場合、中間層の出力）の方が空間的に良い性質を持っていることが知られている。第２の実施形態では、平滑度を射影空間上での変化に対するモデル出力の滑らかさとして算出する。

図４は、第２の実施形態にかかる学習装置１００−２を含む情報処理装置２００−２の構成の一例を示すブロック図である。図４に示すように、情報処理装置２００−２は、学習装置１００−２と、制御部２０１と、を備えている。学習装置１００−２は、学習データ記憶部１２１と、モデルパラメータ記憶部１２２と、算出部１０１−２と、学習部１０２と、を備えている。

第２の実施形態では、算出部１０１−２の機能が第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる学習装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

算出部１０１−２は、射影空間上での入力データの平滑度を算出する点が、第１の実施形態の算出部１０１と異なっている。算出部１０１−２は、例えば以下の（１２）〜（１４）式により、平滑度Ｌ^ｉ _ａｄｖを算出する。

ここでｇ（ｘ^ｉ）はニューラルネットワークの中間層（例えば最後の中間層）の出力であり、ｆ（ｇ（ｘ^ｉ））はニューラルネットワークの出力である。

ｇ（ｘ^ｉ）はニューラルネットワークの中間層の出力に限られず、どのような写像であってもよい。例えば、ｇ（ｘ^ｉ）は主成分分析の写像としてもよい。またニューラルネットワークの中間層の出力とする場合、中間層は１つであってもよいし、複数であってもよい。例えば、複数の中間層の出力の和、および、複数の中間層の出力の重み付け和などをｇ（ｘ^ｉ）として用いてもよい。

次に、このように構成された第２の実施形態にかかる学習装置１００−２の算出部１０１−２による算出処理について図５を用いて説明する。図５は、第２の実施形態における算出処理の一例を示すフローチャートである。なお、学習部１０２による学習処理の全体の流れは第１の実施形態の学習処理を示す図２と同様であるため説明を省略する。

ステップＳ３０１およびステップＳ３０２は、第１の実施形態にかかる学習装置１００におけるステップＳ２０１およびステップＳ２０２と同様の処理なので、その説明を省略する。

第２の実施形態の算出部１０１−２は、距離スケールの算出（ステップＳ３０４）の前に、射影空間上での入力データｘ^ｉの位置ｇ（ｘ^ｉ）を算出する（ステップＳ３０３）。次に算出部１０１−２は、射影空間上での入力データｘ^ｉと隣接点ｘ^ｊとの距離スケールｌ_ｇを以下の（１５）式により算出する（ステップＳ３０４）。

学習部１０２は、距離スケールｌ_ｇとハイパーパラメータεが近くなるようにハイパーパラメータεに対する目的関数Ｌ_εを、上述の（８）式で算出する（ステップＳ３０５）。

第２の実施形態によれば、射影空間上でのデータ点の近傍距離が未知であっても、ユーザが手動でハイパーパラメータεを設定することなしに、精度の高いモデルを学習することができる。

（第３の実施形態）
第１および第２の実施形態では、すべての学習データに対して適切なハイパーパラメータεが学習される。一方、学習データの密度が異なる場合には、データ点ごとに近傍の距離が大きく異なることが予想される。そこで、第３の実施形態では、データ点ごとに定められるハイパーパラメータε_ｉを用いる。

なお、以下では第２の実施形態をもとにデータ点ごとのハイパーパラメータを用いるように変更した例を説明する。第１の実施形態に対しても同様の変更を適用できる。

図６は、第３の実施形態にかかる学習装置１００−３を含む情報処理装置２００−３の構成の一例を示すブロック図である。図６に示すように、情報処理装置２００−３は、学習装置１００−３と、制御部２０１と、を備えている。学習装置１００−３は、学習データ記憶部１２１と、モデルパラメータ記憶部１２２と、算出部１０１−３と、学習部１０２−３と、を備えている。

第３の実施形態では、算出部１０１−３および学習部１０２−３の機能が第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる学習装置１００−２のブロック図である図４と同様であるので、同一符号を付し、ここでの説明は省略する。

算出部１０１−３は、以下の（１６）〜（１８）式により平滑度Ｌ^ｉ _ａｄｖを算出する点が、第２の実施形態の算出部１０１−２と異なっている。

このように算出することで、本実施形態ではｒ^ｉ _ａの大きさがデータ点ごとで異なる。算出部１０１−３は、ハイパーパラメータε_ｉに対する目的関数の値を、以下の手順で算出する。まず算出部１０１−３は、各データ点の射影空間上での位置ｇ（ｘ^ｉ）を算出する。算出部１０１−３は、データ点ごとの隣接点との距離スケールｌ^ｉ _ｇを以下の（１９）式で算出する。

算出部１０１−３は、ハイパーパラメータε_ｉに対する目的関数Ｌ^ｉ _εの値を以下の（２０）式で算出する。

第３の実施形態において算出部１０１−３の出力Ｌ（φ、ε）は、以下の（２１）式で表される。

学習部１０２−３は、確率勾配降下法等を利用して、目的関数Ｌ（φ，ε）の値が小さくなるようにモデルパラメータを更新する。確率勾配降下法を利用した場合の具体的な更新の式は、以下の（２２）式および（２３）式で表される。

なお、学習部１０２−３による学習処理の全体の流れ、および、算出部１０１−３による算出処理の全体の流れは、第１の実施形態の学習処理を示す図２、および、第２の実施形態の算出処理を示す図５と同様であるため説明を省略する。

第３の実施形態によれば、データが局所的に密集している場合など、データごとに適切な近傍距離が異なる場合でも、ユーザが手動でハイパーパラメータを設定することなしに精度の高いモデルを学習することができる。

以上説明したとおり、第１から第３の実施形態によれば、ハイパーパラメータを決定するための計算コストが低減可能となる。

次に、第１から第３の実施形態にかかる装置（情報処理装置、学習装置）のハードウェア構成について図７を用いて説明する。図７は、第１から第３の実施形態にかかる装置のハードウェア構成例を示す説明図である。

第１から第３の実施形態にかかる装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第３の実施形態にかかる装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第３の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第３の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第３の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第３の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２、１００−３学習装置
１０１、１０１−２、１０１−３算出部
１０２、１０２−３学習部
１２１学習データ記憶部
１２２モデルパラメータ記憶部
２００、２００−２、２００−３情報処理装置
２０１制御部

Claims

モデルの出力の局所分布の滑らかさを表す平滑度を含み、前記モデルを定める第１モデルパラメータを推定するための第１目的関数の値と、前記第１目的関数を利用して前記モデルを学習する学習方法のハイパーパラメータを第２モデルパラメータとして、学習データの距離スケールにより近い前記第２モデルパラメータを推定するための第２目的関数の値と、を算出する算出部と、
前記第１目的関数の値および前記第２目的関数の値を最適化するように前記第１モデルパラメータおよび前記第２モデルパラメータを更新する学習部と、
を備える学習装置。
前記距離スケールは、予め定められた射影空間上での距離スケールである、
請求項１に記載の学習装置。
前記モデルは、ニューラルネットワークであり、
前記距離スケールは、前記ニューラルネットワークの中間層の出力を示す射影空間上での距離スケールである、
請求項２に記載の学習装置。
前記距離スケールは、複数の第１学習データそれぞれと、複数の学習データのうち他の学習データより前記第１学習データに距離が近い第２学習データと、の間の距離の平均である、
請求項１に記載の学習装置。
前記距離スケールは、学習データごとに求められる、
請求項１に記載の学習装置。
前記ハイパーパラメータは、前記平滑度を算出するためのハイパーパラメータである、
請求項１に記載の学習装置。
前記モデルは、ニューラルネットワークである、
請求項１に記載の学習装置。
請求項１から請求項７のいずれか１項に記載の学習装置と、
更新された前記第１モデルパラメータにより定められる前記モデルを用いた情報処理を制御する制御部と、
を備える情報処理装置。
モデルの出力の局所分布の滑らかさを表す平滑度を含み、前記モデルを定める第１モデルパラメータを推定するための第１目的関数の値と、前記第１目的関数を利用して前記モデルを学習する学習方法のハイパーパラメータを第２モデルパラメータとして、学習データの距離スケールにより近い前記第２モデルパラメータを推定するための第２目的関数の値と、を算出する算出ステップと、
前記第１目的関数の値および前記第２目的関数の値を最適化するように前記第１モデルパラメータおよび前記第２モデルパラメータを更新する学習ステップと、
を含む学習方法。
コンピュータを、
モデルの出力の局所分布の滑らかさを表す平滑度を含み、前記モデルを定める第１モデルパラメータを推定するための第１目的関数の値と、前記第１目的関数を利用して前記モデルを学習する学習方法のハイパーパラメータを第２モデルパラメータとして、学習データの距離スケールにより近い前記第２モデルパラメータを推定するための第２目的関数の値と、を算出する算出部と、
前記第１目的関数の値および前記第２目的関数の値を最適化するように前記第１モデルパラメータおよび前記第２モデルパラメータを更新する学習部、
として機能させるためのプログラム。