JP2018159992A - Parameter adjustment device, learning system, parameter adjustment method and program - Google Patents
Parameter adjustment device, learning system, parameter adjustment method and program Download PDFInfo
- Publication number
- JP2018159992A JP2018159992A JP2017055505A JP2017055505A JP2018159992A JP 2018159992 A JP2018159992 A JP 2018159992A JP 2017055505 A JP2017055505 A JP 2017055505A JP 2017055505 A JP2017055505 A JP 2017055505A JP 2018159992 A JP2018159992 A JP 2018159992A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- function
- estimation
- hyperparameter
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
Description
本発明の実施形態は、パラメータ調整装置、学習システム、パラメータ調整方法、およびプログラムに関する。 Embodiments described herein relate generally to a parameter adjustment device, a learning system, a parameter adjustment method, and a program.
近年、画像認識、音声認識、および言語解析などの分野において、機械学習を用いた手法についての研究が行われている。特に、多層構造のニューラルネットワークを用いたディープラーニング手法が注目されている。このディープラーニング手法においては、予め教師データなどを用いた学習処理を行い、ニューラルネットワークの結合の重みなどが調整される。このようなニューラルネットワークの結合の重みを調整する場合、学習の動作を規定するハイパーパラメータ(学習率、各層のノード数、層数など)の値が、学習結果に大きな影響を及ぼす。 In recent years, research on methods using machine learning has been performed in the fields of image recognition, speech recognition, and language analysis. In particular, a deep learning method using a multilayered neural network has attracted attention. In this deep learning method, learning processing using teacher data or the like is performed in advance to adjust the weight of the neural network connection. When adjusting the connection weight of such a neural network, the values of the hyper parameters (the learning rate, the number of nodes in each layer, the number of layers, etc.) that define the learning operation greatly affect the learning result.
上記のような学習処理においては、所望の学習結果が得られるまで、ハイパーパラメータの値を変化させながら学習処理を何度も繰り返す必要がある。例えば、ハイパーパラメータの値を変更するたびに学習結果を確認し、ハイパーパラメータと学習結果との関係を把握した上で、再びハイパーパラメータの値を調整する作業が必要となる。このため、このようなハイパーパラメータの調整に時間がかかる。 In the learning process as described above, it is necessary to repeat the learning process many times while changing the value of the hyperparameter until a desired learning result is obtained. For example, every time the value of the hyper parameter is changed, it is necessary to confirm the learning result, grasp the relationship between the hyper parameter and the learning result, and then adjust the value of the hyper parameter again. For this reason, it takes time to adjust such hyperparameters.
また、ハイパーパラメータの調整に確率分布による一般的探索手法を用いた場合、初期値に左右されて本来探索すべき値から外れた不要な範囲の探索を繰り返す可能性がある。このため、ハイパーパラメータの調整を行っても所望の学習結果を得ることができない場合がある。 In addition, when a general search method based on probability distribution is used to adjust hyperparameters, there is a possibility of repeatedly searching for an unnecessary range that is influenced by the initial value and deviates from the value that should be originally searched. For this reason, a desired learning result may not be obtained even if the hyper parameter is adjusted.
本発明が解決しようとする課題は、ハイパーパラメータの調整を効率的に行うことが可能なパラメータ調整装置、学習システム、パラメータ調整方法、およびプログラムを提供することである。 The problem to be solved by the present invention is to provide a parameter adjustment device, a learning system, a parameter adjustment method, and a program capable of efficiently adjusting hyperparameters.
実施形態のパラメータ調整装置は、推定部と、限定部と、決定部とを持つ。推定部は、機械学習によって得られた学習結果に基づいて、前記機械学習の動作を規定するハイパーパラメータと前記学習結果との関係を示す推定関数を推定する。限定部は、前記推定部により推定された推定関数に基づいて、前記ハイパーパラメータの値域を限定する。決定部は、前記限定部により限定された値域に含まれるハイパーパラメータの中から、前記機械学習に用いるハイパーパラメータを決定する。 The parameter adjustment apparatus according to the embodiment includes an estimation unit, a limitation unit, and a determination unit. The estimation unit estimates an estimation function indicating a relationship between a hyperparameter that defines the operation of the machine learning and the learning result based on a learning result obtained by machine learning. The limiting unit limits the range of the hyperparameter based on the estimation function estimated by the estimation unit. The determining unit determines a hyperparameter used for the machine learning from among the hyperparameters included in the range limited by the limiting unit.
以下、実施形態のパラメータ調整装置、学習システム、パラメータ調整方法、およびプログラムを、図面を参照して説明する。 Hereinafter, a parameter adjustment device, a learning system, a parameter adjustment method, and a program according to embodiments will be described with reference to the drawings.
図1は、実施形態の学習システムSの一例を示す図である。学習システムSは、例えば、パラメータ調整装置1と、学習装置3とを備える。パラメータ調整装置1と、学習装置3とは、ネットワークNによって互いに接続されている。ネットワークNは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線などを含む。
FIG. 1 is a diagram illustrating an example of a learning system S according to the embodiment. The learning system S includes, for example, a
パラメータ調整装置1は、機械学習におけるハイパーパラメータの調整を行う。すなわち、パラメータ調整装置1は、機械学習のハイパーパラメータを調整する際に、学習処理を行った学習結果(正答率など)の傾向から、ハイパーパラメータと学習結果との関係を関数で推定し、この関数に基づいてハイパーパラメータの値域を限定する。例えば、パラメータ調整装置1は、ハイパーパラメータと、学習装置3がこのハイパーパラメータを用いて学習処理を行った学習結果との関係を関数で推定し、この関数に基づいてハイパーパラメータの値域を限定する。
The
パラメータ調整装置1は、例えば、パラメータ候補決定部10(決定部)と、タスク送信部12と、関数推定部14(推定部)と、探索範囲限定部16(限定部)と、記憶部18とを備える。パラメータ調整装置1の各機能部のうち一部または全部は、プロセッサがプログラム(ソフトウェア)を実行することにより実現されてよい。この場合、パラメータ調整装置1は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよい。或いは、CD−ROMなどの記憶媒体に記憶された上記のプログラム、又はネットワークを介して頒布される上記のプログラムを、コンピュータ装置に適宜インストールすることで実現してもよい。
The
パラメータ候補決定部10は、調整対象とするハイパーパラメータの種類およびハイパーパラメータの値の組み合わせの候補を決定する。パラメータ候補決定部10は、組み合わせの候補を決定するために、一様分布に基づくランダム方式の探索手法、確率分布に基づくベイジアン(Bayesian)方式の探索手法などを用いる。
The parameter
タスク送信部12は、パラメータ候補決定部10によって決定された候補を用いた学習処理を示すタスクを学習装置3に送信する。学習装置3は、このタスクに基づいて、学習処理を実行する。
The
関数推定部14は、学習装置3から受け取った学習結果の傾向に基づいて、ハイパーパラメータと学習結果との関係を示す関数(以下、「推定関数」と呼ぶ)を推定する。
The
探索範囲限定部16は、関数推定部14によって推定された推定関数に基づいて、学習結果が得られていない未学習範囲を含む学習結果の傾向を予測し、予測した傾向から、最適な学習結果が得られることが予測されるハイパーパラメータの値域を限定する。
Based on the estimation function estimated by the
記憶部18は、予め機械学習において使用されるハイパーパラメータの探索範囲を記憶する。また、記憶部18は、探索範囲限定部16によって限定された各ハイパーパラメータの値域を記憶する。記憶部18は、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリなどで実現される。
The
学習装置3は、画像認識、音声認識、および言語解析などの判定処理などを行う。学習装置3は、パラメータ調整装置1から受け取ったハイパーパラメータに基づいて、学習処理を行う。学習装置3は、例えば、多層構造のニューラルネットワークを用いたディープラーニング手法を用いる。この学習処理では、ニューラルネットワークの構成および結合の重みなどが調整される。学習装置3は、学習処理における学習結果(正答率など)を、パラメータ調整装置1に入力する。
The
次に、パラメータ調整装置1の動作について説明する。図2は、パラメータ調整装置1の処理の一例を示すフローチャートである。
Next, the operation of the
まず、パラメータ候補決定部10は、入力部(図示しない)から入力されたユーザの指示などに基づいて、学習率、各層のノード数、層数などのハイパーパラメータの中で、調整対象とするハイパーパラメータを選択する(ステップS101)。以下においては、学習処理に関連する2つのハイパーパラメータ(第1ハイパーパラメータAおよび第2ハイパーパラメータB)を調整対象とする例について説明する。
First, the parameter
次に、パラメータ候補決定部10は、2つのハイパーパラメータの内、一方のハイパーパラメータ(第1ハイパーパラメータA)の値の候補を複数個決定する。すなわち、パラメータ候補決定部10は、記憶部18から第1ハイパーパラメータAの探索範囲を読み出し、その探索範囲内で第1ハイパーパラメータAの値の候補を複数個決定する。第1ハイパーパラメータAの探索範囲としては、例えば、10n(n=1,2,...)のように大きな範囲が設定されてよい。また、パラメータ候補決定部10は、他方のハイパーパラメータ(第2ハイパーパラメータ)については固定値として設定する。
Next, the parameter
次に、タスク送信部12は、パラメータ候補決定部10によって決定されたパラメータセット(複数の値を有する第1ハイパーパラメータAの各々と、固定値の第2ハイパーパラメータBとの組み合わせ)を学習装置3に送信し、学習装置3に学習処理を行わせる(ステップS105)。また、タスク送信部12は、学習装置3において行われる学習処理の繰り返し回数を規定するハイパーパラメータを学習装置3に送信してもよい。
Next, the
次に、関数推定部14は、学習装置3から受け取った学習結果に基づいて、第1ハイパーパラメータAと学習結果との関係を示す推定関数を推定する(ステップS107)。図3は、パラメータ調整装置1の関数推定処理の一例を示すフローチャートである。
Next, the
関数推定処理において、まず、関数推定部14は、学習装置3から受け取った学習結果における基準点と、予め定義された基準関数f(A)との基準点との値が等しくなるように、基準関数f(A)をα(定数)倍する(ステップS201)。基準関数f(A)として、複数の基準関数f(A)が予め定義されてもよい。この場合、この複数の基準関数f(A)の中から、学習装置3から受け取った学習結果に近い傾向を示す関数が選択されてよい。図4は、学習装置3による学習処理によって得られた学習結果(正答率)と、第1ハイパーパラメータAとの関係を示す図である。図5は、基準関数f(A)上の基準点D1と学習結果における基準点D2との調整処理を示す図である。図5に示すように、基準関数f(A)上の基準点D1と、学習結果における基準点D2との正答率の値が等しくなるように、基準関数f(A)をα倍する。
In the function estimation process, first, the
次に、関数推定部14は、学習装置3から受け取った学習結果と、基準関数f(A)をα倍することにより得られた関数α*f(A)から算出された算出結果との誤差(差)が最小となる関数を第1推定関数F1として推定する(ステップS203)。例えば、図6に示すように、関数推定部14は、学習装置3から受け取った学習結果と、基準関数α*f(A)から算出された算出結果との誤差の合計が最小となる関数を求めることで、第1推定関数F1を推定する。
Next, the
次に、関数推定部14は、上記の基準関数f(A)を用いて、第2ハイパーパラメータBの最小値と対応する第2推定関数F2を推定する(ステップS205)。例えば、関数推定部14は、上記のパラメータ候補決定部10によって決定された複数の値を有する第1ハイパーパラメータAの各々と第2ハイパーパラメータBの最小値との組み合わせを学習装置3に送信して学習処理を行わせることにより得られた学習結果と、基準関数f(A)を定数倍することにより得られた関数から算出された算出結果との誤差が最小となる関数を第2推定関数F2として推定する。
Next, the
次に、関数推定部14は、上記の基準関数f(A)を用いて、第2ハイパーパラメータBの最大値と対応する第3推定関数F3を推定する(ステップS207)。例えば、関数推定部14は、上記のパラメータ候補決定部10によって決定された複数の値を有する第1ハイパーパラメータAの各々と第2ハイパーパラメータBの最大値との組み合わせを学習装置3に送信して学習処理を行わせることにより得られた学習結果と、基準関数f(A)を定数倍することにより得られた関数から算出された算出結果との誤差が最小となる関数を第3推定関数F3として推定する。
Next, the
次に、関数推定部14は、第1推定関数F1、第2推定関数F2、および第3推定関数F3に基づいて、学習結果が得られていない範囲(未学習範囲)における推定関数を推定する(ステップS209)。例えば、関数推定部14は、各推定関数における第2ハイパーパラメータBと関連付けされる他のパラメータCの変化を推定することで、固定値として設定された第2ハイパーパラメータBの値と、第2ハイパーパラメータBの最小値との間の推定関数を推定する。また、関数推定部14は、固定値として設定された第2ハイパーパラメータBの値と、第2ハイパーパラメータBの最大値との間の推定関数を推定する。
Next, the
図7は、関数推定部14によって推定された複数の推定関数を示す図である。図7に示す例では、関数推定部14によって第1推定関数F1、第2推定関数F2、および第3推定関数F3が推定された後、各推定関数における第2ハイパーパラメータBと関連付けされる他のパラメータCの変化を推定することで、推定関数F1,F2,およびF3以外の未学習範囲における推定関数(点線)が推定される。以上により、関数推定に関する本フローチャートの処理を終了する。
FIG. 7 is a diagram illustrating a plurality of estimation functions estimated by the
次に、探索範囲限定部16は、関数推定部14によって推定された複数の推定関数に基づいて、第2ハイパーパラメータBの各値における第1ハイパーパラメータAの値域を限定する(ステップS111)。第2ハイパーパラメータBの値を選択する場合には、一様分布に基づくランダム方式、メトロポリス法などを用いてよい。また、第1ハイパーパラメータAの値域を限定する場合には、各推定関数における学習結果のピーク値を基準とした所定の範囲を値域として限定してよい。探索範囲限定部16は、限定した値域を、記憶部18に記憶させる。
Next, the search
図8は、探索範囲限定部16によって限定された第1ハイパーパラメータAの値域を示す図である。図8に示す例では、関数推定部14によって推定された推定関数における学習結果のピークPを基準とした所定の範囲σを値域として限定されている。
FIG. 8 is a diagram illustrating a range of the first hyperparameter A limited by the search
次に、パラメータ候補決定部10は、記憶部18に記憶されている探索範囲限定部16によって限定された値域に含まれる第1ハイパーパラメータAの中から、最適な学習結果が得られることが予測される第1ハイパーパラメータAの値を選択し、選択した第1ハイパーパラメータAと第2ハイパーパラメータBとのパラメータセットを決定する(ステップS113)。
Next, the parameter
次に、タスク送信部12は、パラメータ候補決定部10によって決定された機械学習に用いるパラメータセットを学習装置3に送信し、学習装置3に学習処理を行わせる(ステップS115)。以上により、本フローチャートの処理を終了する。
Next, the
以上で説明した実施形態によれば、実際の学習結果の傾向から、各パラメータと学習結果との関係を関数で推定し、値域を限定しながら学習することによって、不要な範囲の探索回数を削減でき、ハイパーパラメータの調整にかかる作業工数を短縮することができる。 According to the embodiment described above, the number of searches for an unnecessary range is reduced by estimating the relationship between each parameter and the learning result from a function of the actual learning result and learning while limiting the range. It is possible to reduce the man-hours required for adjusting the hyper parameters.
次に、Momentum SGCを用いたハイパーパラメータの調整方法に関する実施例について説明する。図9は、実施例における、パラメータ調整装置1の処理を示すフローチャートである。
Next, an embodiment relating to a hyper parameter adjustment method using Momentum SGC will be described. FIG. 9 is a flowchart illustrating processing of the
まず、パラメータ候補決定部10は、入力部(図示しない)から入力されたオペレータの指示などに基づいて、学習率、各層のノード数、層数などのハイパーパラメータの中で、調整対象とするハイパーパラメータを選択する(ステップS301)。ここでは、パラメータ候補決定部10は、調整対象とする第1ハイパーパラメータAとして「学習率」を選択し、第2ハイパーパラメータBとして「モメンタム(momentum)」を選択する。
First, the parameter
次に、パラメータ候補決定部10は、第1ハイパーパラメータA(学習率)として「学習率=10−n(n=1,2,・・・5)」を決定し、第2ハイパーパラメータB(Bdefault)(モメンタム)として「momentum=0.90」を決定する(ステップS303)。
Next, the parameter
次に、タスク送信部12は、パラメータ候補決定部10によって決定されたパラメータセット(5つの第1ハイパーパラメータAの各々と、固定値の第2ハイパーパラメータBとの組み合わせ)を学習装置3に送信し、学習装置3に学習処理を行わせる(ステップS305)。図11は、学習処理によって得られた学習結果と第1ハイパーパラメータAとの関係を示す図である。
Next, the
次に、関数推定部14は、学習装置3から受け取った学習結果に基づいて、第1ハイパーパラメータAと学習結果との関係を示す推定関数を推定する(ステップS307)。図10は、パラメータ調整装置1の関数推定処理を示すフローチャートである。
Next, the
関数推定処理において、まず、関数推定部14は、学習装置3から受け取った学習結果における基準点と、予め定義された基準関数f(A)上における基準点との値が等しくなるように、基準関数f(A)をα(定数)倍する(ステップS401)。ここでは、基準関数f(A)として、以下の式(1)のポアソン分布が定義されているとする。
上記の式(1)におけるkは、上記の学習率(10−n)におけるnとの間において、n=k+1の関係を満たす。すなわち、この式(1)におけるkは、第1ハイパーパラメータAと関連付けされる変数である。また、この式(1)におけるλは、第2ハイパーパラメータBと関連付けされる変数(パラメータC)である。 K in the above equation (1) satisfies the relationship of n = k + 1 with n in the learning rate (10 −n ). That is, k in the equation (1) is a variable associated with the first hyperparameter A. In this equation (1), λ is a variable (parameter C) associated with the second hyperparameter B.
図12に示すように、基準関数f(A)上の基準点D1と、学習結果における基準点D2との正答率の値が等しくなるように、基準関数f(A)をα倍する。関数推定部14は、例えば、k=1(学習率=0.01)の場合の分布の値と、学習装置3から受け取った学習結果(正答率)との値が等しくなるように、基準関数f(A)をα倍する。
As shown in FIG. 12, the reference function f (A) is multiplied by α so that the correct answer rate values of the reference point D1 on the reference function f (A) and the reference point D2 in the learning result are equal. For example, the
次に、関数推定部14は、学習装置3から受け取った学習結果と、基準関数f(A)をα倍することにより得られた関数α*f(A)から算出された算出結果との誤差(差)の合計が最小となる関数を第1推定関数F1として推定する(ステップS403)。関数推定部14は、例えば、二乗誤差の和が最小になるλの値を推定する。図13に示すように、関数推定部14は、式(1)において、λ0=2である関数を第1推定関数F1として推定する。
Next, the
次に、関数推定部14は、上記の基準関数f(A)を用いて、第2ハイパーパラメータBの最小値(Bmin)と対応する第2推定関数F2を推定する(ステップS405)。例えば、関数推定部14は、上記のパラメータ候補決定部10によって決定された5つの第1ハイパーパラメータAの各々と第2ハイパーパラメータBの最小値(0.01)との組み合わせを学習装置3に送信して学習処理を行わせることにより得られた学習結果と、基準関数f(A)を定数倍することにより得られた関数から算出された算出結果との誤差が最小となる関数を第2推定関数F2として推定する。
Next, the
次に、関数推定部14は、上記の基準関数f(A)を用いて、第2ハイパーパラメータBの最大値(Bmax)と対応する第3推定関数F3を推定する(ステップS407)。例えば、関数推定部14は、上記のパラメータ候補決定部10によって決定された5つの第1ハイパーパラメータAの各々と第2ハイパーパラメータBの最大値(0.99)との組み合わせを学習装置3に送信して学習処理を行わせることにより得られた学習結果と、基準関数f(A)を定数倍することにより得られた関数から算出された算出結果との誤差が最小となる関数を第3推定関数F3として推定する。
Next, the
次に、関数推定部14は、第1推定関数F1、第2推定関数F2、および第3推定関数F3に基づいて、学習結果が得られていない範囲(未学習範囲)における推定関数を推定する(ステップS409)。図14に示すように、関数推定部14は、第1推定関数F1、第2推定関数F2、および第3推定関数F3を推定した後、0.01<momentum<0.99の範囲において、第2ハイパーパラメータBと、パラメータλとの関係を表した近似式を求める。例えば、関数推定部14は、以下の式(2)および(3)の関係を表した近似式(4)を求める。式(4)において、aおよびbは定数である。
ここで、λ0=Bdefault、ΔB=B−Bdefault(Bは学習時に確率分布によって与えられる)であるため、近似式(4)は、式(5)のように表される。
本実施例において、関数推定部14は、以下の式(6)によって表される近似式を求める(上記式(5)におけるbは0とする)。この近似式(6)において、βは定数である。関数推定部14は、この近似式(6)を用いて、0.01刻みの各momentumの値でのλの値を求める(momentum=0.9は除く)。
このように、第1推定関数F1、第2推定関数F2、および第3推定関数F3における第2ハイパーパラメータBと関連付けされるパラメータλの変化を推定することで、未学習範囲における推定関数が推定される。以上により、関数推定に関する本フローチャートの処理を終了する。なお、関数推定部14が求める近似式は、一次関数の式である必要はなく、二次関数などの式であってもよい。また、近似式が予め定義されている場合には、第2ハイパーパラメータBの最小値(Bmin)と対応する第2推定関数F2および第2ハイパーパラメータBの最大値(Bmax)と対応する第3推定関数F3を推定する処理を省略してもよい。
Thus, the estimation function in the unlearned range is estimated by estimating the change of the parameter λ associated with the second hyperparameter B in the first estimation function F1, the second estimation function F2, and the third estimation function F3. Is done. Thus, the process of this flowchart relating to function estimation ends. Note that the approximate expression obtained by the
次に、探索範囲限定部16は、関数推定部14によって推定された複数の推定関数に基づいて、第1ハイパーパラメータAの値域を限定する(ステップS311)。図15は、関数推定部14によって推定された複数の推定関数と、探索範囲限定部16によって限定された値域を示す図である。図15に示す例では、4つの第2ハイパーパラメータB(0.09,0.62,0.90,0.99)の各々に対して推定された推定関数において、正答率のピークP1からP4を第1ハイパーパラメータAの値域として限定している。探索範囲限定部16は、ピークP1からP4の各々を基準とした所定の範囲を値域として限定してもよい。
Next, the search
次に、パラメータ候補決定部10は、探索範囲限定部16によって限定された値域に含まれる第1ハイパーパラメータAの中から、機械学習に用いる第1ハイパーパラメータAを選択し、選択した第1ハイパーパラメータAと第2ハイパーパラメータBとのパラメータセットを決定する(ステップS313)。
Next, the parameter
次に、タスク送信部12は、パラメータ候補決定部10によって決定された機械学習に用いるパラメータセットを学習装置3に送信し、学習装置3に学習処理を行わせる(ステップS315)。以上により、本フローチャートの処理を終了する。
Next, the
図16は、実施例におけるパラメータ調整装置1によって調整されたハイパーパラメータを用いて学習処理を行った場合の処理結果を示す図である。正答率の平均改善幅とは、基準となる引数(lr=0.01,momentum=0.9)の正答率と、調整によって得られた正答率の最大値との差を示している。また、平均探索数は、ベイジアン探索において、実施例で求めた正答率以上の値が得られるまでの探索数の平均値を示している。ベイジアン探索での最大探索回数が40回のため、その回数内で得られなかった場合は、値を40として算出している。
FIG. 16 is a diagram illustrating a processing result when the learning process is performed using the hyper parameter adjusted by the
図16に示すように、従来のベイジアン探索を用いた場合と比較して、実施例におけるパラメータ調整装置1によって調整されたハイパーパラメータを用いて学習処理を行った場合、同じ程度の平均改善幅の値で、平均の探索数を半分程度に抑えることができる。また、探索数15回の結果によると、本実施例により平均改善幅の値を向上させることができる。例えば、クラス数が「30」であり、探索数が「15」である条件下で比較すると、従来のベイジアン探索を用いた場合の平均改善幅は「1.81」であるのに対して、本実施例では「2.52」となっており、平均改善幅の値が向上していることが分かる。また、クラス数が増大するにつれて、本実施例では平均改善幅の値をより向上させることができる。
As shown in FIG. 16, when the learning process is performed using the hyperparameter adjusted by the
以上で説明した実施形態によれば、実際の学習結果の傾向から、各パラメータと学習結果との関係を関数で推定し、値域を限定しながら学習することによって、不要な範囲の探索回数を削減でき、ハイパーパラメータの調整にかかる作業工数を短縮することができる。 According to the embodiment described above, the number of searches for an unnecessary range is reduced by estimating the relationship between each parameter and the learning result from a function of the actual learning result and learning while limiting the range. It is possible to reduce the man-hours required for adjusting the hyper parameters.
なお、上記の実施形態では、調整対象のパラメータとして2つのパラメータ(第1ハイパーパラメータAおよび第2ハイパーパラメータB)を用いた例を説明したが、3つ以上のパラメータの調整に本実施形態を適用してもよい。 In the above-described embodiment, an example in which two parameters (first hyperparameter A and second hyperparameter B) are used as parameters to be adjusted has been described. However, the present embodiment is used to adjust three or more parameters. You may apply.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and their modifications are included in the scope and gist of the invention, and are also included in the invention described in the claims and the equivalents thereof.
1…パラメータ調整装置、3…学習装置、10…パラメータ候補決定部、12…タスク送信部、14…関数推定部、16…探索範囲限定部、18…記憶部、S…学習システム
DESCRIPTION OF
Claims (9)
前記推定部により推定された推定関数に基づいて、前記ハイパーパラメータの値域を限定する限定部と、
前記限定部により限定された値域に含まれるハイパーパラメータの中から、前記機械学習に用いるハイパーパラメータを決定する決定部と
を備える、パラメータ調整装置。 Based on a learning result obtained by machine learning, an estimation unit that estimates an estimation function indicating a relationship between a hyperparameter that defines the operation of the machine learning and the learning result;
Based on the estimation function estimated by the estimation unit, a limiting unit that limits the range of the hyperparameter;
A parameter adjustment device comprising: a determination unit that determines a hyperparameter used for the machine learning from among the hyperparameters included in the range limited by the limitation unit.
請求項1に記載のパラメータ調整装置。 The estimation unit estimates the estimation function including a range in which a learning result of the machine learning is not obtained;
The parameter adjustment device according to claim 1.
請求項1または2に記載のパラメータ調整装置。 The estimation unit uses, as the estimation function, a reference function that minimizes a difference between the learning result obtained by the machine learning and a calculation result calculated based on the reference function among a plurality of reference functions. presume,
The parameter adjustment apparatus according to claim 1 or 2.
請求項1から3のいずれか一項に記載のパラメータ調整装置。 The determination unit determines a hyperparameter used for the machine learning based on a search method using a uniform distribution.
The parameter adjustment apparatus as described in any one of Claim 1 to 3.
請求項1から4のいずれか一項に記載のパラメータ調整装置。 The estimation unit estimates an estimation function indicating a relationship between a hyperparameter used for adjusting a configuration of a neural network and a connection weight and the learning result.
The parameter adjustment device according to any one of claims 1 to 4.
請求項1から5のいずれか一項に記載のパラメータ調整装置。 The estimation unit estimates, as the estimation function, a function that minimizes a difference between the learning result obtained by the machine learning and a calculation result calculated based on a Poisson distribution function;
The parameter adjustment device according to any one of claims 1 to 5.
前記パラメータ調整装置によって決定された前記ハイパーパラメータを用いて、学習処理を行う学習装置と
を備えた学習システム。 A parameter adjusting device according to any one of claims 1 to 6;
A learning system comprising: a learning device that performs learning processing using the hyperparameter determined by the parameter adjustment device.
前記推定された推定関数に基づいて、前記ハイパーパラメータの値域を限定し、
前記限定された値域に含まれるハイパーパラメータの中から、前記機械学習に用いるハイパーパラメータを決定する、
パラメータ調整方法。 Based on a learning result obtained by machine learning, an estimation function indicating a relationship between the learning result and a hyperparameter that defines the operation of the machine learning is estimated,
Based on the estimated estimation function, a range of the hyperparameter is limited,
Determining hyperparameters used for the machine learning from among hyperparameters included in the limited range;
Parameter adjustment method.
機械学習によって得られた学習結果に基づいて、前記機械学習の動作を規定するハイパーパラメータと前記学習結果との関係を示す推定関数を推定させ、
前記推定された推定関数に基づいて、前記ハイパーパラメータの値域を限定させ、
前記限定された値域に含まれるハイパーパラメータの中から、前記機械学習に用いるハイパーパラメータを決定させる、
プログラム。 On the computer,
Based on a learning result obtained by machine learning, an estimation function indicating a relationship between a hyperparameter that defines the operation of the machine learning and the learning result is estimated,
Based on the estimated estimation function, the range of the hyperparameter is limited,
From among the hyperparameters included in the limited range, the hyperparameter used for the machine learning is determined.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017055505A JP6815240B2 (en) | 2017-03-22 | 2017-03-22 | Parameter adjustment device, learning system, parameter adjustment method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017055505A JP6815240B2 (en) | 2017-03-22 | 2017-03-22 | Parameter adjustment device, learning system, parameter adjustment method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018159992A true JP2018159992A (en) | 2018-10-11 |
JP6815240B2 JP6815240B2 (en) | 2021-01-20 |
Family
ID=63796694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017055505A Active JP6815240B2 (en) | 2017-03-22 | 2017-03-22 | Parameter adjustment device, learning system, parameter adjustment method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6815240B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033093A (en) * | 2019-02-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | Hyper parameter determines method, device and equipment |
EP3852024A1 (en) | 2020-01-17 | 2021-07-21 | Fujitsu Limited | Information processing apparatus, information processing method, and information processing program |
JP7199115B1 (en) | 2021-12-17 | 2023-01-05 | 望 窪田 | Distributed learning in machine learning |
-
2017
- 2017-03-22 JP JP2017055505A patent/JP6815240B2/en active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033093A (en) * | 2019-02-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | Hyper parameter determines method, device and equipment |
CN110033093B (en) * | 2019-02-19 | 2023-10-17 | 创新先进技术有限公司 | Super-parameter determination method, device and equipment |
EP3852024A1 (en) | 2020-01-17 | 2021-07-21 | Fujitsu Limited | Information processing apparatus, information processing method, and information processing program |
JP7199115B1 (en) | 2021-12-17 | 2023-01-05 | 望 窪田 | Distributed learning in machine learning |
JP2023090055A (en) * | 2021-12-17 | 2023-06-29 | 望 窪田 | Federated learning in machine learning |
Also Published As
Publication number | Publication date |
---|---|
JP6815240B2 (en) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Managing non-cooperative behaviors in consensus-based multiple attribute group decision making: An approach based on social network analysis | |
US11087201B2 (en) | Neural architecture search using a performance prediction neural network | |
EP3711000B1 (en) | Regularized neural network architecture search | |
KR20220047850A (en) | Exploring resource-constrained neural network architectures | |
US20220092416A1 (en) | Neural architecture search through a graph search space | |
WO2018156891A1 (en) | Training policy neural networks using path consistency learning | |
US11488067B2 (en) | Training machine learning models using teacher annealing | |
US20210133578A1 (en) | Compound model scaling for neural networks | |
JP6470165B2 (en) | Server, system, and search method | |
CN110663049A (en) | Neural network optimizer search | |
US20170017655A1 (en) | Candidate services for an application | |
JP2018159992A (en) | Parameter adjustment device, learning system, parameter adjustment method and program | |
US20230223112A1 (en) | Retrosynthesis using neural networks | |
AU2018278988B2 (en) | Continuous learning based semantic matching for textual samples | |
JP2018528511A (en) | Optimizing output efficiency in production systems | |
US20180253695A1 (en) | Generating job recommendations using job posting similarity | |
JP6679360B2 (en) | Information providing apparatus and information providing method | |
US11526690B2 (en) | Learning device, learning method, and computer program product | |
JP6429819B2 (en) | Information providing apparatus and information providing method | |
JP2021174276A (en) | Determination device, determination method and determination program | |
CN112488319A (en) | Parameter adjusting method and system with self-adaptive configuration generator | |
JP6558860B2 (en) | Estimation device, prediction device, method, and program | |
US20230237351A1 (en) | Inference apparatus, inference method, and computer-readable recording medium | |
US11626108B2 (en) | Machine learning system for customer utterance intent prediction | |
US11893480B1 (en) | Reinforcement learning with scheduled auxiliary control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20170830 Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20170830 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6815240 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |