JP2021114085A

JP2021114085A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2021114085A
Application number: JP2020005975A
Authority: JP
Inventors: 龍一大堀; Ryuichi Ohori
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-08-05
Also published as: CN113222168A; EP3852024A1; US20210224689A1

Abstract

【課題】学習精度を向上させる情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】学習処理部１２は、与えられた複数のハイパーパラメータ１７４を用いて学習を実行する。評価値算出部１３は、学習処理部１２によるハイパーパラメータ１７４毎の学習結果の評価を表す評価値１７３を算出する。近似式生成部１４は、ハイパーパラメータ１７４と評価値１７３との関係を表す近似式を生成し、生成した近似式を基に異常値と判定される異常評価値が除かれた前記評価値１７３を用いて近似式を再度生成する処理を、異常評価値が存在しなくなるまで繰り返し、収束近似式を生成する。決定部１６は、近似式生成部１４により生成された収束近似式を基にハイパーパラメータ１７４の最適値を決定する。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

近年、多くの分野で機械学習の有効性が確認されている。機械学習とは、データからその関係を表すモデルを作成することである。より詳しくは、学習する対象とする適当なモデル型を与え、学習アルゴリズムによってモデルパラメータを決定することで、機械学習が行われる。

例えば、特定のデータ群に対して、その特定のデータ群の特徴を得るために機械学習が用いられることがある。具体的には、混合ガウス分布を表すモデル型に与えられたデータ群を用いて機械学習を実行することで、その与えられたデータ群に適合する混合ガウス分布を求めることができる。

機械学習においては、学習プロセスそのものを制御するハイパーパラメータが外から与えられる。ここで、外から与えられるとは、人が決定した適当な値やコンピュータによるランダムな値や所定値が与えられることを指す。学習を制御するハイパーパラメータは、外から与えられるが、その適切な与え方は未だ明確になっていない。

例えば、ハイパーパラメータの与え方として、Chio, C., D.(2018), Machine Learning and Security: Protecting System with Data and Algorithms. Sebastopol, CA:に開示されたデフォルト値やランダムな値を用いる方法がある。さらに、与えられたハイパーパラメータを用いて実際にモデルを訓練して、その結果に応じてハイパーパラメータを調整する方法もある。ただしこの方法は、人手による試行錯誤に依存するため非効率的である。

そこで、複数の与えられたハイパーパラメータの値のそれぞれについて学習を行い、結果の最も良かったものを選択する技術がある。ただし、この方法では、学習の種類によっては最も適切なハイパーパラメータ以外を選択してしまうおそれがある。例えば、学習自体にランダム性が存在し、初期状態などに依存して結果の悪化がランダムに発生する場合、実際には最良なハイパーパラメータを用いたにも関わらず悪い結果が出てしまうおそれがある。その場合、最良なハイパーパラメータ以外のパラメータを最良のハイパーパラメータとして選択してしまうおそれがある。この点、同じハイパーパラメータを用いて学習を繰り返すことで、結果のランダム性を低減することができるが、学習処理が多くなり作業者及びコンピュータの付加が高くなり、最良のハイパーパラメータを選択することは困難となる。

そこで、ハイパーパラメータの値と評価値との関係を関係式で近似し、その近似式を最大化するハイパーパラメータの値を採用する方法が存在する。評価値とは、正解と考えられる値に結果がどれだけ近づいたかを表す値である。

なお、ハイパーパラメータの決定方法として以下のような従来技術がある。例えば、ハイパーパラメータと学習結果との関係を関数で表し、その関数において他のハイパーパラメータを変化させた時の特定のハイパーパラメータのピーク値が取り得る範囲を、その特定のハイパーパラメータの値域として学習を行う従来技術がある。また、学習に用いる訓練データのサイズとして特定のサイズを用いて２度の学習を行い、その２度の学習における負荷を反映した指標の合計と閾値との関係によりハイパーパラメータ及びサイズを変更して学習を繰り返す従来技術がある。

特開２０１８−１５９９９２号公報特開２０１９−０７９２１４号公報

しかしながら、近似式を最大化するハイパーパラメータを採用する方法では、評価のランダムな悪化が大きい場合、その悪化が大きい点に大きく影響を受けて正確な近似式とならずに最良のハイパーパラメータの選択が困難となるおそれがある。例えば、評価のランダムな悪化の影響を受けて最大値を持たない近似式が求まる場合があり、そのような近似式では最良のハイパーパラメータを選択することは困難となる。

また、ピーク値が取り得る範囲にハイパーパラメータの値域を限定する従来技術であっても、評価のランダムな悪化の影響により適切なピーク値が得られない場合があり、最良のハイパーパラメータを選択することは困難である。また、学習負荷からハイパーパラメータ及び訓練データのサイズを決定する従来技術であっても、評価のランダムな悪化の影響を受けてしまい、最良のハイパーパラメータを選択することは困難である。このように、適切なハイパーパラメータを用いないで学習を行った場合、学習精度を向上させることは困難である。

開示の技術は、上記に鑑みてなされたものであって、学習精度を向上させる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

本願の開示する情報処理装置、情報処理方法及び情報処理プログラムの一つの態様において、学習処理部は、与えられた複数のハイパーパラメータを用いて学習を実行する。評価値算出部は、前記学習処理部による前記ハイパーパラメータ毎の学習結果の評価を表す評価値を算出する。近似式生成部は、前記ハイパーパラメータと前記評価値との関係を表す近似式を生成し、生成した前記近似式を基に異常値と判定される異常評価値が除かれた前記評価値を用いて近似式を再度生成する処理を、前記異常評価値が存在しなくなるまで繰り返し、収束近似式を生成する。決定部は、前記近似式生成部により生成された前記収束近似式を基に前記ハイパーパラメータの最適値を決定する。

１つの側面では、本発明は、学習精度を向上させることができる。

図１は、実施例に係る情報処理装置のブロック図である。図２は、評価値算出までの処理の流れを説明するための図である。図３は、確率変数でない場合の学習におけるハイパーパラメータと評価値との関係を表す図である。図４は、確率変数となる学習におけるハイパーパラメータと評価値との関係を表す図である。図５は、収束前の近似式を表す図である。図６は、収束後の近似式を表す図である。図７は、ハイパーパラメータの選択処理のフローチャートである。図８は、情報処理装置のハードウェア構成図である。

以下に、本願の開示する情報処理装置、情報処理方法及び情報処理プログラムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。

図１は、実施例に係る情報処理装置のブロック図である。情報処理装置１は、外部装置２と接続される。そして、情報処理装置１は、図１に示すように、情報取得部１１、学習処理部１２、評価値算出部１３、近似式生成部１４、判定部１５、決定部１６及び記憶部１７を有する。

記憶部１７は、各種データを記憶する記憶装置である。記憶部１７は、予め学習データ１７１及び評価データ１７２を記憶する。

情報取得部１１は、ハイパーパラメータ１７４の入力を外部装置２から受ける。ここで、ハイパーパラメータ１７４の種類は、学習に使用されるモデルに応じてその数が決定されるものであり、１つ又は複数のいずれでもよい。情報取得部１１は、ハイパーパラメータ１７４の種類が複数ある場合には、それぞれの種類のハイパーパラメータ１７４の値を含むハイパーパラメータ１７４の組の情報を複数取得する。ハイパーパラメータ１７４の種類が１つの場合、情報取得部１１は、１つのハイパーパラメータ１７４の値を複数取得する。以下では、複数の種類のハイパーパラメータ１７４がある場合のハイパーパラメータ１７４の組も、単にハイパーパラメータ１７４という。

そして、情報取得部１１は、取得したハイパーパラメータ１７４を記憶部１７に格納する。その後、情報取得部１１は、ハイパーパラメータ１７４の取得を学習処理部１２に通知し、学習実行を指示する。

学習処理部１２は、ハイパーパラメータ１７４の取得の通知を情報取得部１１から受ける。学習実行の指示を受けると、学習処理部１２は、学習データ１７１及びハイパーパラメータ１７４を記憶部１７から取得する。

そして、学習処理部１２は、各ハイパーパラメータ１７４を用いたモデルに対して学習データ１７１を用いて機械学習を実行し、モデル毎のモデルパラメータを求める。そして、学習処理部１２は、求めたモデルパラメータを用いて完成したモデルを生成する。学習処理部１２は、ハイパーパラメータ１７４毎に、モデルを生成する。そして、学習処理部１２は、生成したハイパーパラメータ１７４毎のモデルを評価値算出部１３へ出力する。

例えば、既知の入力をＸとし出力をＹとした場合の、入力と出力の関係Ｒを学習する機械学習を例に説明する。この場合、関係Ｒは、未知である。この場合のモデルファミリを次の数式（１）で表されるＭとする。モデルファミリとは、異なるハイパーパラメータ１７４を与えた場合のそれぞれのモデルの集まりである。

この場合、学習処理部１２は、次の数式（２）で定義される学習Ｔを実行する。ここで、Ｈはハイパーパラメータ１７４の集合である。

例えば、次の数式（３）で表される入力データＸと出力データＹとの組の要素がデータＤｔと表され、ハイパーパラメータ１７４の集合であるＨに含まれるいずれかのハイパーパラメータｈを使用する場合で説明する。

学習処理部１２は、データＤｔとハイパーパラメータｈを用いて、入力データＸから出力データＹを求める関係Ｒを、モデルファミリＭの要素であるモデルｍで近似して求める。このような処理を行うことで、学習処理部１２は、数式（２）で表される学習Ｔを実行する。このように、学習処理部１２は、学習Ｔにより関係Ｒを学習する。

ただし、学習がランダムに行われる、すなわちランダムに発生する初期状態に依存して結果が求まる場合、学習Ｔは確率変数となる。その場合、学習処理部１２は、学習Ｔの結果として確率的に悪化する結果を得てしまう。不適切な学習結果を使用した場合、入力に対して適切な出力を得ることが困難となる。

評価値算出部１３は、ハイパーパラメータ１７４毎のモデルの入力を学習処理部１２から受ける。また、評価値算出部１３は、評価データ１７２を記憶部１７から取得する。そして、評価値算出部１３は、評価データ１７２を各ハイパーパラメータ１７４に対応するモデルに用いて、各ハイパーパラメータ１７４に対応する評価値１７３を算出する。例えば、教師あり学習の場合、評価値算出部１３は、入力に対して出力された値の教師データにおける値との差を表す精度を評価値１７３とする。また、教師なし学習の場合、評価値算出部１３は、赤池情報基準（ＡＩＣ：Akaike's Information Criterion）を用いて算出された対数尤度を評価値１７３とする。評価値算出部１３は、赤池情報基準を用いる場合、モデルパラメータの個数に応じたペナルティを与えて対数尤度を求める。

機械学習を行う際に、モデルパラメータが多い複雑なモデルほど使用した学習データ１７１によく当てはまるモデルが生成できる。ただしその場合、使用した学習データ１７１に対する過剰適合が発生し、一般的なデータに対する適切なモデルとは言えなくなるおそれがある。パラメータの少ない単純なモデルほど一般的なデータに対して学習精度が向上する可能性が高いため、評価値算出部１３は、パラメータの数に応じてペナルティを与え、なるべくパラメータの少ないより単純なモデルが選択されるように対数尤度を算出する。

例えば、評価を次の数式（４）と定義する。ここで、Ｅは評価を表す。また、二重線のＲは評価結果を表す。

この場合、評価値算出部１３は、評価データ１７２として次の数式（５）で表される入力データＸと出力データＹとの組の要素であるデータＤνを、生成したモデルファミリＭに含まれる各モデルｍに対して用いて評価を行う。そして、評価値算出部１３は、モデルファミリＭに含まれる各モデルｍと確からしい学習結果との差分を表すそれぞれの評価値１７３を求める。

この評価値１７３がなるべく良いハイパーパラメータ１７４が適切なハイパーパラメータ１７４と言える。例えば、評価値１７３が大きいほど良い結果であるとした場合、評価値１７３はより大きくすることが好ましい。

評価値算出部１３は、求めた各ハイパーパラメータ１７４に対応する評価値１７３を記憶部１７に格納する。また、評価値算出部１３は、各ハイパーパラメータ１７４に対応する評価値１７３を近似式生成部１４へ出力する。

図２は、評価値算出までの処理の流れを説明するための図である。ここで、図２を参照して、学習処理部１２による学習から評価値算出部１３までの処理の流れをまとめて説明する。

学習処理部１２は、数式（３）に示すハイパーパラメータｈ及び学習データ１７１であるデータＤｔを用いて学習Ｔを実行してモデルｍを生成する（ステップＳ１０３）。ここでは、ハイパーパラメータｈ及び学習データ１７１であるデータＤｔを用いた学習Ｔが、Ｔ（Ｄｔ）（ｈ）として表される。

その後、評価値算出部１３は、生成されたモデルｍに対して評価データ１７２であるデータＤνを用いて数式（４）で示される評価Ｅを実行する（ステップＳ１０２）。ここでは、モデルｍに対してデータＤνを用いた評価Ｅが、Ｅ（Ｄν）（ｍ）として表される。

ここで、学習Ｔは確率変数であり学習処理部１２が学習Ｔの結果として確率的に悪化する結果を得てしまう場合、悪化した結果を用いて評価Ｅを行うと、評価結果も悪化する。すなわち、評価値算出部１３は、確率的に悪化した値を含む評価値を得てしまう。

評価値のランダムな悪化について図３及び図４を参照して説明する。図３は、確率変数でない場合の学習におけるハイパーパラメータと評価値との関係を表す図である。また、図４は、確率変数となる学習におけるハイパーパラメータと評価値との関係を表す図である。図３及び図４ともに、横軸でハイパーパラメータ１７４の値を表し、横軸で評価値を表す。図３及び図４は、縦軸の上に行くほど評価値が良くなる場合の図である。以下では、ハイパーパラメータ１７４の値を「ハイパーパラメータ値」と呼ぶ場合がある。

学習が確率変数とならない場合、評価においてランダムな悪化は発生せず、各パラメータ値に対して適切な評価値が得られる。その場合、図３に示すように、評価値が最も良い点１０１のハイパーパラメータ値が最良のハイパーパラメータ１７４となる。

これに対して、学習が確率変数となる場合、評価においてランダムな悪化が発生するため、図４のように各ハイパーパラメータ値に対する評価値が求まる。この場合、点１０３に対応するハイパーパラメータ値を用いた場合の適切な評価値は点１０２で表される値であった。すなわち、点１０３で表される評価値は、学習が確率変数となるために悪化してしまっているといえる。そのため、本来であれば点１０２が最高の評価値を有するはずであるにもかかわらず、図４では、点１０４が最高の評価値となる。この場合、点１０２に対応するハイパーパラメータ値ではなく、点１０４のハイパーパラメータ値が適切なハイパーパラメータ１７４となってしまう。このように、実際には最高の評価値となるハイパーパラメータ１７４以外が適切なハイパーパラメータ１７４として選択されるおそれがある。そこで、近似式を用いたハイパーパラメータ１７４の選択が行われる。

図１に戻って説明を続ける。近似式生成部１４は、評価値算出部１３から評価値１７３の入力を受ける。さらに、近似式生成部１４は、各評価値１７３に対応する各ハイパーパラメータ１７４を記憶部１７から取得する。そして、近似式生成部１４は、最小二乗法などを用いて、ハイパーパラメータ１７４の値と評価値との関係を関係式で近似して、ハイパーパラメータ１７４の値と評価値との関係を表す近似式を求める。

ここで、図５を参照して、評価値がランダムに悪化する場合の近似式について説明する。図５は、収束前の近似式を表す図である。図５は、横軸でハイパーパラメータ１７４の値を表し、縦軸で評価値１７３を表す。図５では、縦軸の紙面に向かって下に進むにしたがい評価値が良くなることを表す。図５にプロットされた各点が、評価値１７３がランダムに悪化する場合のハイパーパラメータ１７４と対応する評価値１７３を表す点である。この場合、図５の紙面に向かって下にある点がより評価が良い。そして、近似式２００がこの各点の関係を表す関係式を近似した式である。図５に示された各点の中には、点２０２のように近似式２００から大きく外れた点も存在する。この大きく外れた点が評価値１７３のランダムな悪化により発生する点である。ランダムな評価値１７３の悪化が無ければ、実際には、図５の紙面に向かって下方向に並んだ点を結んだ線が近似式となると考えられる。しかし、近似式２００は、ランダムな評価値１７３の悪化の影響により、最大値が選択困難な曲線となっている。そこで、ランダムな評価値１７３の悪化の影響を除いた近似式２００を求めることが好ましい。

そこで、ランダムに悪化した評価値１７３を除くために、近似式生成部１４は、求めた近似式を判定部１５へ出力する。その後、近似式生成部１４は、判定部１５から除外された評価値１７３及びハイパーパラメータ１７４の情報の入力を受けると、通知された評価値１７３及びハイパーパラメータ１７４を除いた評価値１７３及びハイパーパラメータ１７４を用いて近似式を求める。これに対して、近似式の収束の通知を判定部１５から受けた場合、近似式生成部１４は、収束した近似式を決定部１６に通知する。この収束した近似式が、「収束近似式」の一例にあたる。

判定部１５は、ハイパーパラメータ１７４の値と評価値との関係を表す近似式の入力を近似式生成部１４から受ける。次に、判定部１５は、評価値１７３を記憶部１７から取得する。そして、判定部１５は、取得した評価値１７３の中で近似式の値よりも評価が悪い値で且つ近似式から大きく外れている評価値１７３が存在するか否かを判定する。

判定部１５は、評価値１７３の中で近似式の値よりも評価が悪い値で且つ近似式から大きく外れている評価値１７３が存在する場合、その評価値１７３を異常値とする。ここで、大きく外れるとは、例えば、ハイパーパラメータ１７４と評価値１７３との関係を表す座標平面において近似式からの距離が予め与えられた閾値以上となることを指す。そして、判定部１５は、異常値の評価値１７３及びその評価値１７３に対応するハイパーパラメータ１７４を記憶部１７から削除する。そして、判定部１５は、近似式の再生成を近似式生成部１４に指示する。近似式の値よりも評価が悪い値で且つ近似式から大きく外れている評価値１７３が、「異常評価値」の一例にあたる。

これに対して、評価値１７３の中で近似式の値よりも評価が悪い値で且つ近似式から大きく外れている評価値１７３が存在しない場合、すなわち全ての評価値１７３が正常値の場合、判定部１５は、近似式の収束を近似式生成部１４に通知する。

この評価値１７３の除外処理の一例を説明する。判定部１５は、次の数式（６）を満たす評価値ｙ_ａを求める。ここで、数式（６）におけるｙａは、除外対象となる評価値１７３であり、ｆ（ｘ_ａ）は、近似式に対してｙａに対応するハイパーパラメータ１７４を代入して求まる評価値である。また、数式（６）の右辺は、各評価値１７３と対応するハイパーパラメータ１７４を代入して求まる評価値との差分の最小値の符号を反転させた値を表す。こ数式（６）の右辺が閾値の一例にあたる。

図５を参照して、上述した評価値１７３の除外処理の一例を説明する。例えば、図５における点２０１が除外される点である場合で説明する。点２０１に対応する評価値１７３が数式（６）のｙ_ａにあたる。そして、数式（６）の左辺は、差分Ｖ１にあたる。また、点２０２が近似式２００から評価値が良い方向に最も離れた点である。この点２０２における各評価値１７３からその評価値に対応するハイパーパラメータ１７４を代入して求まる評価値を引いた値が、各評価値から対応する近似式の値を減算した値のうちの最小の値となる。すなわち、数式（６）の右辺の絶対値は、差分Ｖ２にあたる。そして、差分Ｖ２以上に差分Ｖ１が離れているものを評価値１７３が大きく近似式２００から離れた点とする。ただし、点２０１などの近似式よりも評価が悪い点と点２０２とは近似式２００を挟んで逆方向に存在する。そのため、点２０１などの評価が悪い点の評価値１７３から近似式２００の値を減算した値は、点２０２の近似式２００よりも評価値１７３から近似式２００の値を減算した値と符号が逆になる。そこで、数式（６）のように、点２０２の評価値１７３から近似式２００の値を減算した値の符号を反転させたもの以上に差が存在する近似式２００よりも評価が悪い点を抽出することで、評価が悪い方向に大きく近似式２００から離れた点が抽出される。

期待値最大化法などのようにモデルパラメータを選択する際に最適値を探索する手順で機械学習を行う場合、評価値１７３は上限を有する。そのような機械学習の場合、適切な評価値１７３が上限に近づくことはあるが、評価値１７３がランダムで良い方向に大きく外れることはない。大きく外れる評価値１７３は学習が確率変数であるによるランダムな悪化による影響と考えられる。すなわち、評価値１７３が最良の点は、適切な評価値である可能性がある。そのため、適切な評価値１７３におけるバラつきは最良の点までの距離の間で発生する可能性が高いため、本実施例に係る判定部１５は、それ以上に離れた位置にある評価が悪い点をランダムな悪化により発生した点として除外する。

図６は、収束後の近似式を表す図である。図６は、横軸でハイパーパラメータ１７４の値を表し、縦軸で評価値１７３を表す。図６では、縦軸の紙面に向かって下に進むにしたがい評価値が良くなることを表す。ただし、図５の縦軸のオーダーは１０の７乗であったが、図６では、縦軸のオーダーが１０の４乗となっている。すなわち、図６は、図５における下部を拡大した図である。近似式２１０は、図５の各点からランダムに悪化した評価値１７３に対応する点を除いて近似を繰り返すことで収束した近似式である。

近似式２１０における極値を取る点２１１が、評価値１７３が最も良くなる点、すなわち近似式２１０を最大化する点となる。したがって、収束された近似式２１０からは、ハイパーパラメータ１７４の最適値を選択することが可能である。

図１に戻って説明を続ける。決定部１６は、収束した近似式の入力を近似式生成部１４から受ける。そして、決定部１６は、取得した近似式を最大化するハイパーパラメータ１７４を記憶部１７が有するハイパーパラメータ１７４から取得する。そして、決定部１６は、取得したハイパーパラメータ１７４を最適値として決定する。例えば、図６の近似式２１０を用いる場合、決定部１６は、極値を取る点２１１におけるハイパーパラメータ１７４の値を最適値とする。このように、決定部１６は、最適となるハイパーパラメータ１７４を収束した近似式を用いて選択することができる。

そして、決定部１６は、最適値としたハイパーパラメータ１７４を出力する。本実施例では、決定部１６は、最適値としたハイパーパラメータ１７４を記憶部１７に記憶させる。これにより、学習処理部１２は、後に行う学習において最適値となるハイパーパラメータ１７４を記憶部１７から取得して学習を実行することができる。

次に、図７を参照してハイパーパラメータの選択処理の流れを説明する。図７は、ハイパーパラメータの選択処理のフローチャートである。

情報取得部１１は、ハイパーパラメータ１７４を外部装置２０から取得する（ステップＳ１）。そして、情報取得部１１は、取得したハイパーパラメータ１７４を記憶部１７に格納する。さらに、情報取得部１１は、ハイパーパラメータ１７４を学習処理部１２へ出力し学習の実行を指示する。

学習処理部１２は、ハイパーパラメータ１７４の入力を情報取得部１１から受ける。そして、学習処理部１２は、学習の実行の指示を受けて、学習データ１７１を記憶部１７から取得する。そして、学習処理部１２は、学習データ１７１及びハイパーパラメータ１７４を用いて機械学習を実行する（ステップＳ２）。学習処理部１２は、機械学習により、ハイパーパラメータ１７４毎にモデルパラメータを求める。そして、学習処理部１２は、求めたモデルパラメータを用いてハイパーパラメータ１７４毎にモデルを生成する。その後、学習処理部１２は、生成した各モデルを評価値算出部１３へ出力する。

評価値算出部１３は、機械学習により得られたモデルの入力を学習処理部１２から受ける。さらに、評価値算出部１３は、評価データ１７２を記憶部１７から取得する。そして、評価値算出部１３は、ハイパーパラメータ１７４毎の各モデルに対して評価データ１７２を用いて評価を行い、ハイパーパラメータ１７４毎に評価値１７３を算出する（ステップＳ３）。その後、評価値算出部１３は、算出した評価値１７３を記憶部１７に格納する。また、評価値算出部１３は、近似式の生成を近似式生成部１４に指示する。

近似式生成部１４は、近似式の生成の指示を近似式生成部１４から受けて、各ハイパーパラメータ１７４を記憶部１７から取得する。そして、近似式生成部１４は、ハイパーパラメータ１７４の値と評価値１７３との関係を関係式で近似して、ハイパーパラメータ１７４の値と評価値１７３との関係を表す近似式を生成する（ステップＳ４）。次に、近似式生成部１４は、生成した近似式を判定部１５へ出力する。

判定部１５は、近似式の入力を近似式生成部１４から受ける。そして、判定部１５は、評価値１７３は全て正常値か否かを判定する（ステップＳ５）。ここでは、判定部１５は、近似値から評価が悪化する方向に閾値よりも離れた評価値１７３が存在するか否かにより判定を行う。

異常値となる評価値１７３が存在する場合（ステップＳ５：否定）、判定部１５は、ハイパーパラメータ１７４と評価値１７３との組の中から、評価値１７３が異常値となる組を記憶部１７から削除する（ステップＳ６）。ここでは、判定部１５は、近似式から評価が悪化する方向に閾値よりも離れる組を削除する。そして、判定部１５は、近似式の生成を近似式生成部１４に依頼する。その後、処理は、ステップＳ４に戻る。

これに対して、評価値１７３が全て正常値の場合（ステップＳ５：肯定）、判定部１５は、近似式の収束完了を近似式生成部１４に通知する。近似式生成部１４は、近似式の収束完了の通知を受けて、収束した近似式を決定部１６へ出力する。決定部１６は、取得した近似式を最大化するハイパーパラメータ１７４を最適値として選択する（ステップＳ７）。

その後、決定部１６は、最低既知のハイパーパラメータ１７４を出力し（ステップＳ８）、例えば記憶部１７などに格納する。

ここで、機械学習に用いるモデルファミリとして混合ガウス分布を用いる場合で、本実施例に係る情報処理装置１によるハイパーパラメータの決定処理について説明する。混合ガウス分布の場合、ハイパーパラメータ１７４はガウス分布の混合数となる。また、混合ガウス分布の場合、モデルパラメータは平均、分散及び重みとなる。

情報取得部１１は、ハイパーパラメータ１７４である混合数を複数取得する。学習処理部１２は、混合数のそれぞれについて混合ガウス分布に対して学習データ１７１を用いて機械学習を実行し、モデルパラメータである平均、分散及び重みを求める。そして、求めた平均、分散及び重みを有する混合ガウス分布を混合数毎に生成する。評価値算出部１３は、学習処理部１２により生成された各混合数に対応する混合ガウス分布に対して評価データ１７２を用いて、赤池情報量基準（ＡＩＣ）による評価値１７３を求める。

近似式生成部１４は、混合数及び評価値１７３の関係を表す近似式を生成する。そして、判定部１５は、近似式から評価が悪化する方向に閾値よりも離れた評価値１７３を異常値として、異常値の評価値１７３及びそれに対する混合数を近似式の要素から除く。そして、近似式生成部１４は、異常値の評価値１７３及びそれに対応する混合数が除かれたデータを用いてから再度近似式を生成する。近似式生成部１４及び判定部１５は、評価値１７３が正常値となり収束するまで近似式の生成処理を繰り返す。そして、決定部１６は、収束した混合数及び評価値１７３の関係を表す近似式を用いて混合数の最適値を求める。これにより、学習データ１７１に対応するデータを用いて学習を行う際に使用する混合ガウス関数の混合数として適切な値が求まる。

学習処理部１２は、その混合数を有する混合ガウス関数を用いて機械学習を実行することで、適切な平均、分散及び重みといったモデルパラメータを求めることができる。したがって、学習処理部１２は、求めた平均、分散及び重みを用いて、与えられたデータ群に精度よく適合する混合ガウス関数を求めることができる。すなわち、情報処理装置１は、学習精度を向上させることができる。

以上に説明したように、本実施例に係る情報処理装置は、ハイパーパラメータと評価値との関係を表す近似式を求め、求めた近似式を基に異常値と判定される評価値及びそのハイパーパラメータを除いて近似式を生成する処理を繰り返す。そして、異常値と判定される評価値が無くなると、情報処理装置は、その近似式を用いてハイパーパラメータの適切値を求める。これにより、学習が確率変数である場合のランダムに悪化する評価値の影響を低減することができ、適切なハイパーパラメータを容易に選択することができる。そして、適切なハイパーパラメータを用いることで、学習精度を向上させることができる。

（ハードウェア構成）
図８は、情報処理装置のハードウェア構成図である。本実施例に係る情報処理装置１０は、ＣＰＵ（Central1 Processing Unit）９１、メモリ９２、ハードディスク９３及びＮＩＣ（Network Interface Card）９４を有する。ＣＰＵ９１は、メモリ９２、ハードディスク９３及びＮＩＣ９４とバスで接続される。

ＮＩＣ９４は、例えば、外部装置２０との間の通信インタフェースである。情報取得部１１は、ＮＩＣ９４を介して外部装置２０と通信を行う。

ハードディスク９３は、図１における記憶部１７の機能を実現する。また、ハードディスク９３は、図１に例示した情報取得部１１、学習処理部１２、評価値算出部１３、近似値生成部１４、判定部１５及び決定部１６の機能を実現するためのプログラムを含む各種プログラムを格納する。

ＣＰＵ９１は、ハードディスク９３から各種プログラムを読み出してメモリ９２に展開して実行することで、図１に例示した情報取得部１１、学習処理部１２、評価値算出部１３、近似値生成部１４、判定部１５及び決定部１６の機能を実現する。

１情報処理装置
２外部装置
１１情報取得部
１２学習処理部
１３評価値算出部
１４近似式生成部
１５判定部
１６決定部
１７記憶部
１７１学習データ
１７２評価データ
１７３評価値
１７４ハイパーパラメータ

Claims

与えられた複数のハイパーパラメータを用いて学習を実行する学習処理部と、
前記学習処理部による前記ハイパーパラメータ毎の学習結果の評価を表す評価値を算出する評価値算出部と、
前記ハイパーパラメータと前記評価値との関係を表す近似式を生成し、生成した前記近似式を基に異常値と判定される異常評価値が除かれた前記評価値を用いて近似式を再度生成する処理を、前記異常評価値が存在しなくなるまで繰り返し、収束近似式を生成する近似式生成部と、
前記近似式生成部により生成された前記収束近似式を基に前記ハイパーパラメータの最適値を決定する決定部と
を備えたことを特徴とする情報処理装置。
前記近似式生成部により生成された前記近似式を基に前記異常評価値を決定し、前記評価値の中から前記異常評価値を除外する判定部をさらに備え、
前記近似式生成部は、前記判定部により前記異常評価値が除外された前記評価値を用いて近似式を再度生成する
ことを特徴とする請求項１に記載の情報処理装置。
前記異常評価値は、前記ハイパーパラメータと前記評価値との関係を表す座標平面上で、前記近似式から前記評価が悪くなる方向に閾値よりも離れた前記評価値を前記異常値として決定されることを特徴とする請求項１又は２に記載の情報処理装置。
前記閾値は、前記近似式から前記評価が良くなる方向に最も離れた前記評価値までの距離であることを特徴とする請求項３に記載の情報処理装置。
与えられた複数のハイパーパラメータを用いて学習を実行し、
前記ハイパーパラメータ毎の学習結果の評価を表す評価値を算出し、
前記ハイパーパラメータと前記評価値との関係を表す近似式を生成し、
生成した前記近似式を基に異常値と判定される異常評価値を前記評価値の中から除き、
前記近似式の生成及び前記異常評価値の前記評価値からの除外の処理を前記異常評価値が存在しなくなるまで繰り返して収束近似式を生成し、
生成した前記収束近似式を基に前記ハイパーパラメータの最適値を決定する
ことを特徴とする情報処理方法。
与えられた複数のハイパーパラメータを用いて学習を実行し、
前記ハイパーパラメータ毎の学習結果の評価を表す評価値を算出し、
前記ハイパーパラメータと前記評価値との関係を表す近似式を生成し、
生成した前記近似式を基に異常値と判定される異常評価値を前記評価値の中から除き、
前記近似式の生成及び前記異常評価値の前記評価値からの除外の処理を前記異常評価値が存在しなくなるまで繰り返して収束近似式を生成し、
生成した前記収束近似式を基に前記ハイパーパラメータの最適値を決定する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。