JP6470209B2 - サーバ、システム及び探索方法 - Google Patents

サーバ、システム及び探索方法 Download PDF

Info

Publication number
JP6470209B2
JP6470209B2 JP2016044316A JP2016044316A JP6470209B2 JP 6470209 B2 JP6470209 B2 JP 6470209B2 JP 2016044316 A JP2016044316 A JP 2016044316A JP 2016044316 A JP2016044316 A JP 2016044316A JP 6470209 B2 JP6470209 B2 JP 6470209B2
Authority
JP
Japan
Prior art keywords
parameter
layer
search
candidate
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016044316A
Other languages
English (en)
Other versions
JP2017162074A (ja
Inventor
賢一 道庭
賢一 道庭
耕祐 春木
耕祐 春木
政博 小澤
政博 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016044316A priority Critical patent/JP6470209B2/ja
Publication of JP2017162074A publication Critical patent/JP2017162074A/ja
Application granted granted Critical
Publication of JP6470209B2 publication Critical patent/JP6470209B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、サーバ、システム及び探索方法に関する。
画像認識や音声認識を行う分野では、従来からSVM(Support Vector Machine)などの機械学習を採用することによって徐々に認識性能が向上してきた。近年では、機械学習に多層構造のニューラルネットワークが用いられるようになり、これによって認識性能が大幅に向上するようになった。特に、その多層構造のニューラルネットワークによるディープラーニング手法は注目を浴びており、画像認識や音声認識以外に、自然言語解析などの分野にも用途が広がりつつある。
ただし、上記ディープラーニング手法は、その学習に膨大な計算が必要で、処理に多くの時間を要する。また、ディープラーニングでは、各層のノード数、層数、学習率をどう設定するかなど非常に多くのハイパーパラメータ(学習の動作を規定するパラメータ)が用いられる。さらに、ハイパーパラメータに設定する値によって認識性能が大きく異なる。このことから、認識性能が最も良いハイパーパラメータの組み合わせを探索する必要がある。このハイパーパラメータの組み合わせ探索では、ハイパーパラメータの組み合わせを変えながら学習を行い、個々の組み合わせの学習結果から最も認識性能が良い組み合わせを選択する手法がとられている。
論文:Practical Recommendations for Gradient-Based Training of Deep Architectures (http://arxiv.org/pdf/1206.5533v2.pdf)
ところで、上記ディープラーニングにおいて、認識性能がよいハイパーパラメータの組み合わせを探索するように、多数のパラメータから最適な組み合わせを探索する従来の手法では、パラメータの組み合わせの総数が膨大であるため、探索に時間がかかるという課題があった。
本発明の目的は、認識性能の指標が基準より高いパラメータの組み合わせの探索処理の効率化を図り、探索時間を短縮することのできるサーバ、システム及び探索方法を提供することにある。
実施形態によれば、ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索するサーバは、前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する。
実施形態に係るハイパーパラメータ探索システムの具体的な構成を示すブロック図。 図1に示すシステムに用いられるサーバの具体的な構成を示すブロック図。 図1に示すシステムにおいて、マネージャーの具体的な構成を示すブロック図。 図1に示すシステムに適用されるLWGS方式の処理の流れを示すフローチャート。 図1に示すシステムの階層構造とハイパーパラメータの例を示す図。 図1に示すシステムのマネージャーの処理の流れを示すフローチャート。 図1に示すシステムのワーカーの処理の流れを示すフローチャート。 図1に示すシステムのワーカーにおいて、中断機能を含む場合の処理の流れを示すフローチャート。
以下、図面を参照して実施形態を説明する。
図1は実施形態に係るハイパーパラメータ探索システムの具体的な構成を示すブロック図である。このシステムは、マネージャー(Manager)と称されるサーバ(以下、マネージャー)11とワーカー(Worker)と称される複数個(本実施形態では4個とする)のサーバ(以下、Worker)12−i(iは1〜4のいずれか)をネットワーク13に接続したクラスタ構成のサーバシステムであり、ディープラーニング処理を実行するための多層構造のニューラルネットワークを構築している。
上記マネージャー11及びウォーカー12−iに用いられるサーバは、図2に示すように、プログラムを実行して制御を行うためのCPU(Central Processing Unit)101、プログラムを格納するROM(Read Only Memory)102、作業空間を提供するRAM(Random Access Memory)103、ネットワークとの間でデータを入出力するI/O(Input-Output)104、種々の情報データを格納するHDD(Hard Disk Drive)105をバス106に接続して構成される。
上記マネージャー11は、ハイパーパラメータ探索処理を管理するサーバであり、具体的には図3に示すように、ハイパーパラメータ探索範囲格納部111及びハイパーパラメータ候補生成部112及びタスク発送部113を備える。ハイパーパラメータ探索範囲格納部111には、予めディープラーニングで使用されるハイパーパラメータの探索範囲が格納される。ハイパーパラメータ候補生成部112は、ハイパーパラメータ探索範囲格納部111から探索範囲を順次読み出し、読み出された探索範囲において、探索するハイパーパラメータについてどのハイパーパラメータをどの値にするかの組み合わせの候補を生成する。このとき、各ワーカー12−iから学習結果を受け取った場合には、その学習結果をハイパーパラメータの組み合わせの候補生成に反映させる。候補生成の手法として、ここではランダム(Random)方式(112−1)、LWGS(Layer Wise Grid Search)方式(112−2)、ベイジアン(Bayesian)方式(112−3)が用意されているものとする。
ここで、ランダム方式は、一様分布に基づく探索方式であり、離散パラメータ探索と初期値非依存な探索を得意とする。
LWGS方式は、詳細は後述するが、各層毎のハイパーパラメータ候補の探索はランダムで行うが、層間のハイパーパラメータ候補の探索はグリッドサーチを行うので、離散パラメータ探索と初期値非依存な探索を得意としつつ、ランダム方式よりも探索空間を小さくすることができる。
ベイジアン方式は確率分布に基づく探索方式であり、過去の探索で得られたハイパーパラメタと認識率の結果から確率分布を予測することで最適解を探索し、連続パラメータの探索を得意とする。ベイジアン方式については、
論文:Practical Bayesian Optimization of Machine Learning Algorithms
http://papers.nips.cc/paper/4522-practical-bayesian-optimization
-of-machine-learning-algorithms.pdf
にその詳細が示されており、
オープンソース環境:Spearmint(https://github.com/JasperSnoek/spearmint)
Latest commit 0544113 on Oct 31 2014
に、ベイジアン探索を実装したオープンソースのハイパーパラメータ探索環境、複数のサーバにタスクを分散する処理を実装した処理が示されている。ベイジアン方式による探索では初期値により最適なハイパーパラメータが見つからない場合があるが、本実施形態ではランダム方式の探索とベイジアン方式の探索を組み合わせ、またはLWGS方式の探索とベイジアン方式の探索の組み合わせることにより、最適なハイパーパラメータを探索することができる。
上記タスク発送部113は、ハイパーパラメータ候補生成部112で生成された各候補の学習処理を、それぞれタスクとしてワーカー12−iに振り分けて発送し、学習を指示する。
一方、上記ワーカー12−iは、それぞれマネージャー11からハイパーパラメータの組み合わせの候補を受け取り、受け取った候補について学習を行い、認識率やエラー率や交差エントロピーなどの学習結果をマネージャー11のハイパーパラメータ候補生成部112に返す。
ここで、上記LWGS方式について説明する。
図4はLWGS方式によってハイパーパラメータの次候補を作成し選定する場合の処理の流れを示すフローチャートである。ここで、L(Lは2以上の自然数)は1層当たりに探索する回数であり、N(Nは2以上の自然数)はディープニューラルネットワークの層数である。
図4において、ディープニューラルネットワークのハイパーパラメータのうち、第1層の複数のハイパーパラメータ候補を一様分布(ランダム)に生成し、その他の層である第2層から第N層までのハイパーパラメータ候補については、予め定義した値のハイパーパラメータセットを生成する(ステップS1)。ここで、このステップS1の第1層目の複数のハイパーパラメータ候補の生成をL回実行したか判断し(ステップS2)、実行した場合には、第2層から第N層までのハイパーパラメータ候補を生成したか判断し(ステップS3)、実行した場合には、生成したハイパーパラメータでの学習が終了してから、各層毎に上位M(Mは2以上の自然数)位のハイパーパラメータを選択し(ステップS4)、選択したN層の上位M位のハイパーパラメータセットによる探索候補を生成する(ステップS5)。探索候補は総当たりを探索するグリッドサーチ(探索)でもよいし、ランダムな組み合わせによる探索でもよいが、層間のハイパーパラメータ候補の探索については、少なくとも性能が基準値に達するまで、総当たり探索するグリッドサーチで行う。
なお、非特許文献1(論文:Practical Recommendations for Gradient-Based Training of Deep Architectures)にはLayer-wise方式でハイパーパラメータの最適化を行うが、LWGSとは異なる考え方が示されている。すなわち、その論文の3.3.4 において、Layer-wise optimization of hyper-parametersのアルゴリズムとして、以下の処理が示されている。
第1ステップにおいて、レイヤーごとにプリトレーニングを行って、上位K個の候補を作る。ここでは、1層目探索において、1層目のプリトレーニングを行い、性能の良い上位K個の候補を残す。2層目探索において、2層目のプリトレーニングを行い、性能の良い上位K個の候補を残す。以下、同様にして、最終的にN層目探索において、N層目のプリトレーニングを行い、性能の良い上位K個の候補を残す。次に、第2ステップにおいて、第1ステップで検索した上位K個の候補についてファインチューニングを行い、最も良い候補を探す。
以上のように、上記論文に示される処理では、第1ステップで1層からN層まで順番に探索して上位K個までの候補を残し、第2ステップで各層において最も良い候補を検索するようしており、1層では上位K個の候補が残り、十分探索できる。しかし、N層では1層からN-1層までのK個の候補に、N層のハイパーパラメータを追加した候補の中から探索することになり、下位層の候補に大きく影響を受ける。上位層になるほど下位層の探索結果に依存し、探索の自由度が減ってしまう。これに対して、本実施形態に適用するLWCG方式では、各層毎に上位K個までの候補を平等に残すため、広い探索空間をまんべんなく探索することができる利点がある。
なお、図4に示すLWGS方式のフローチャートにおいて、各層内のハイパーパラメータ候補を生成するときに、複数の生成方法を実装するとよい。1つ目は疑似乱数であり、2つ目はソボル列のような一様分布列である。ランダムサーチの手法として、疑似乱数では分布に偏りが生じるため、一様分布を望む場合はソボル列を利用するとよい。
上記構成において、以下にハイパーパラメータの組み合わせ探索処理について説明する。
まず、図5はディープニューラルネットワークの構成とディープニューラルネットワークの各層で処理されるハイパーパラメータの種類を例示している。ディープニューラルネットワークでは、ネットワーク層数が少なく、ハイパーパラメータの種類が3種類でそれぞれのハイパーパラメータの取り得る値が3個ある場合、ハイパーパラメータの組み合わせは33=27通りとなる。しかしながら、ディープニューラルネットワークの層数が図4のように7層で、それぞれのハイパーパラメータの取り得る値が3個ある場合、ハイパーパラメータの組み合わせは37=2,187通りとなる。もし、このディープニューラルネットワークの1回の学習に1時間かかるとしたら、2,187時間(約91日)もかかるため、最適な組み合わせを求めることは非常に困難な問題である。
そこで、実施形態のシステムでは、マネージャーと呼ばれる1台のサーバ11と、ワーカーと呼ばれる複数のサーバ12−iにより構築したクラスタ構成のサーバシステムで、ハイパーパラメータの組み合わせを効率良く高速に探索する。
図6は上記マネージャー11の処理の流れを示すフローチャートである。まず、探索の開始が指示されると、ハイパーパラメータ探索範囲格納部111から探索範囲を読み込み(ステップS11)、その探索範囲内で初期ハイパーパラメータの候補を複数個生成する(ステップS12)。この候補生成には、初期値探索となるので、ランダム方式またはLWGS方式を採用する。生成された候補をタスクとして発行し、任意のワーカー12−iに発送して学習を指示し(ステップS13)、タスク終了を待機する(ステップS14)。ワーカー12−iからタスク終了の応答があった場合には、そのワーカー12−iから送信する学習結果を受信する(ステップS15)。探索の残りがある場合には、ステップS13に戻ってタスク発行から処理を進める(ステップS16)。
探索の残りがない場合には、ステップS16までの処理で集まった学習結果を反映させて次のハイパーパラメータの候補を生成する(ステップS17)。このときの候補生成には、過去の探索結果があるので、ベイジアン方式を採用する。生成された候補をタスクとして発行し、任意のワーカー12−iに発送して学習を指示し(ステップS18)、タスク終了を待機する(ステップS19)。ワーカー12−iからタスク終了の応答があった場合には、そのワーカー12−iから送信する学習結果を受信する(ステップS20)。探索の残りがある場合には、ステップS17に戻ってタスク発行から処理を進める(ステップS21)。探索の残りがない場合には、終了する。
このようにベイジアン方式は初期値依存により性能が良いハイパーパラメータが見つからない場合もあるため、最初にランダム方式またはLWGS方式で探索し、その後ベイジアン方式により探索を継続して行うことで、それぞれの長所を生かして効率よく探索することができる。
図7は上記ワーカー12−iの処理の流れを示すフローチャートである。まず、マネージャー11から送信されたハイパーパラメータ候補のタスクを受信し(ステップS22)、受信したハイパーパラメータ候補のタスクについて学習処理を実行し(ステップS23)、その学習結果をマネージャー11に送信する(ステップS24)。学習結果は性能を示す指標であり、例として認識率、エラー率、交差エントロピーが想定される。
上記の手順により、ディープラーニングのハイパーパラメータを効率的に探索することができる。
以下、上記実施形態において、さらなる効率化を実現する実施例を説明する。
(実施例1)
まず、ニューラルネットワークによるディープラーニングのハイパーパラメータ探索では、固定したニューラルネットワークのハイパーパラメータの値のみを変更して探索するのが一般的である。しかしながら、ハイパーパラメータの値のみの変更ではなく、ニューラルネットワークの層数を変更して探索した方が性能が良い場合がある。
この層数を探索のため、マネージャー11において、ハイパーパラメータ候補生成部112にて層数を変更したパラメータを生成する。ニューラルネットワークのある層のノード数が“0”の場合には、その層はないものとして取り扱う。ワーカー12−i側では、ある層のノード数が“0”の場合には、その層がないニューラルネットワーク構造として学習を行い、その結果をマネージャー11に返す。このようにして層数を変更した探索を行うことができる。
(実施例2)
ニューラルネットワークによるディープラーニングでの学習は、同じデータを数十回以上繰り返し入力して学習を行うことで性能を向上させるため、学習時間が長いことが知られている。素性の良いハイパーパラメータであれば、数十回データを繰り返し入力して性能を上げることに意味がある。しかしながら、素性が悪いハイパーパラメータを数十回もデータを入力して学習しても、性能が悪いハイパーパラメータは使用されないので処理時間が無駄になってしまう。このため、ワーカー12−iにおいて、学習中に認識率などの指標を監視し、学習の途中で素性が悪いと判定したものは学習を中断し、中断した時の学習結果をマネージャー11に送信する。学習中に監視する指標とマネージャー11に返す指標は、前述のように例えば認識率、エラー率、交差エントロピーが想定される。
具体例を図8に示す。図8は、ワーカー12−iにおいて、中断処理機能を備える場合の処理の流れを示すフローチャートである。まず、マネージャー11から送信されたハイパーパラメータ候補のタスクを受信し(ステップS31)、受信したハイパーパラメータ候補のタスクについて学習処理を実行する(ステップS32)。ここで、学習中の処理結果を示す指標を監視して(ステップS33)、その指標が閾値以下か判断する(ステップS34)。この判断で、指標が閾値以下の状態では、学習が完了するまで指標の監視を継続する(ステップS35)。ステップS34で学習の指標が閾値を上回った場合には、直ちに学習を中断する(ステップS36)。ステップS35で学習完了と判定された場合またはステップS36で学習の中断が行われた場合には、学習結果(学習中断の場合は中断情報と中断したときの学習結果)をマネージャー11に送信する(ステップS37)。前述のように、学習結果は性能を示す指標であり、例として認識率、エラー率、交差エントロピーが想定される。
例えばワーカー12−iでの繰り返し学習の回数を100回とするとき、50回学習したときの認識率が90%以下となる場合は中断し、90%以上となる場合には学習を100回まで行うとする。この場合素性の良いハイパーパラメータで50回での認識率が93%となった場合には、100回まで学習を行う。しかし素性が悪いハイパーパラメータで学習を行い、50回での認識率が85%となった場合には、100回まで学習をしないで50回で学習を中断し、中断した時点での学習結果の指標をマネージャー11に送信する。これにより、無駄になる学習時間を削減することができ、全体の効率を向上させることができる。
尚、上記の例では認識率を一定のしきい値90%で判定したが、繰り返し学習を10回行っても認識率が改善しない場合に学習を中断するようにしたり、学習曲線の傾きが一定値以下になったら学習を中断するなど、他の方式でもよい。
上記の処理により、素性の悪いハイパーパラメータの場合には、学習を中断して無駄な学習時間を省き、効率よくハイパーパラメータ探索を行うことができる。
(実施例3)
ニューラルネットワークによるディープラーニングは、学習時間が長いことが知られている。学習時間を短縮するために、ワーカー12−i側での学習時に学習データを1/2に減らして学習を行うようにしてもよい。
(実施例4)
ニューラルネットワークによるディープラーニングは、重みの初期値をランダムに生成しているが、その初期値により学習後の性能が若干異なる。このため、ワーカー12−i側で学習を行うときに、1回学習を行うだけではなく、重みの初期値を複数回変更して学習を行い、平均してマネージャー11に学習結果の指標を送信する。このことにより、安定してハイパーパラメータ探索を行うことができる。
(実施例5)
ニューラルネットワークによるディープラーニングの初期の重みはランダムで生成している。このため、場合によってはランダムで生成した値により若干の性能差が生じることがある。後で同じハイパーパラメータで学習を再び行っても、同じ性能が出ないこともある。このため、ワーカー12−iにおいて、学習を終えた時に、今までで一番性能が良かったモデル(ディープラーニングの学習結果)を保存しておき、学習結果と共にマネージャー11に通知するとよい。
(実施例6)
ニューラルネットワークによるディープラーニングでの学習は、同じデータを数十回以上繰り返し入力して学習を行うことで性能を上げている。しかしながら、一定以上繰り返しても過学習をしてしまい、かえって認識性能などの学習結果の指標が悪化する場合もある。このため、ワーカー12−iにおいて、データを1回入力して学習を行う毎に、認識性能などの学習結果の指標を監視し、最も性能が良いときのモデル(ディープラーニングの学習結果)を保存しておくとよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11…マネージャー(Manager)、12−i…ワーカー(Worker)、13…ネットワーク、101…CPU(Central Processing Unit)、102…ROM(Read Only Memory)、103…RAM(Random Access Memory)、104…I/O(Input-Output)、105…HDD(Hard Disk Drive)、106…バス、111…ハイパーパラメータ探索範囲格納部、112…ハイパーパラメータ候補生成部、113…タスク発送部、112−1…ランダム(Random)方式、112−2…LWGS方式、112−3…ベイジアン(Bayesian)方式。

Claims (10)

  1. ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索するサーバであって、
    前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、
    前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、
    前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1処理部を備えるサーバ。
  2. 前記第1処理部によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2処理部をさらに備える請求項1記載のサーバ。
  3. 前記第1処理部は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補の探索を、一様分布に基づいて行う請求項1または請求項2に記載のサーバ。
  4. 前記第1処理部は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットの探索を、総当たり探索するグリッドサーチで行う請求項1乃至請求項3のいずれか1項に記載のサーバ。
  5. ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する第1のサーバと、第2のサーバと、第3のサーバとを備えるシステムであって、
    前記第1のサーバは、
    前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、
    前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、
    前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1の処理部と、前記第1の処理部によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2の処理部とを備え、
    前記パラメータの探索範囲から前記パラメータセットの組み合わせの初期候補として、前記第1の処理部で前記パラメータセットの第1の組み合わせと前記パラメータセットの第2の組み合わせを生成し、
    前記パラメータセットの第1の組み合わせを前記第2のサーバへ送信し、
    前記パラメータセットの第2の組み合わせを前記第3のサーバへ送信し、
    前記パラメータセットの第1の組み合わせを用いた第1学習結果を前記第2のサーバから受信し、
    前記パラメータセットの第2の組み合わせを用いた第2学習結果を前記第3のサーバから受信し、
    前記第1学習結果と前記第2学習結果とに基づいて、前記第2の処理部で前記パラメータセットの第3の組み合わせを生成し、
    前記パラメータセットの第3の組み合わせを前記第2のサーバまたは前記第3のサーバへ送信し、
    前記パラメータセットの第3の組み合わせを用いた第3学習結果を前記第2のサーバまたは前記第3のサーバから受信するシステム。
  6. ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する探索方法であって、
    前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、
    前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、
    前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1の方式を備える探索方法。
  7. 前記第1の方式による探索処理によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2の方式をさらに備える請求項6記載の探索方法。
  8. 前記第1の方式は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補の探索を、一様分布に基づいて行う請求項6または請求項7に記載の探索方法。
  9. 前記第1の方式は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットの探索を、総当たり探索するグリッドサーチで行う請求項6乃至請求項8のいずれか1項に記載の探索方法。
  10. ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する第1のサーバと、第2のサーバと、第3のサーバとを備えるシステムに用いられる探索方法であって、
    前記第1のサーバが、前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1の方式と、前記第1の方式によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2の方式とを備える探索方法。
JP2016044316A 2016-03-08 2016-03-08 サーバ、システム及び探索方法 Active JP6470209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016044316A JP6470209B2 (ja) 2016-03-08 2016-03-08 サーバ、システム及び探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016044316A JP6470209B2 (ja) 2016-03-08 2016-03-08 サーバ、システム及び探索方法

Publications (2)

Publication Number Publication Date
JP2017162074A JP2017162074A (ja) 2017-09-14
JP6470209B2 true JP6470209B2 (ja) 2019-02-13

Family

ID=59857102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044316A Active JP6470209B2 (ja) 2016-03-08 2016-03-08 サーバ、システム及び探索方法

Country Status (1)

Country Link
JP (1) JP6470209B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6381768B1 (ja) 2017-11-20 2018-08-29 ヤフー株式会社 学習装置、学習方法、学習プログラムおよび動作プログラム
KR102605220B1 (ko) * 2018-04-11 2023-11-23 삼성에스디에스 주식회사 하이퍼파라미터의 최적화 시스템 및 방법
US11741342B2 (en) * 2018-05-18 2023-08-29 Baidu Usa Llc Resource-efficient neural architects
WO2019234907A1 (ja) * 2018-06-08 2019-12-12 日本電気株式会社 制御装置、制御方法、及び、制御プログラムが記録された記録媒体

Also Published As

Publication number Publication date
JP2017162074A (ja) 2017-09-14

Similar Documents

Publication Publication Date Title
JP6470165B2 (ja) サーバ、システム及び探索方法
Martínez et al. A methodology for applying k-nearest neighbor to time series forecasting
Nseef et al. An adaptive multi-population artificial bee colony algorithm for dynamic optimisation problems
CN113064879B (zh) 数据库参数调整方法、装置及计算机可读存储介质
JP6470209B2 (ja) サーバ、システム及び探索方法
JP2016126770A (ja) 実行時間予測のためのデータベースクエリのクラスタリング
Assunção et al. Fast denser: Efficient deep neuroevolution
JP2017199362A (ja) 非定常時系列データの予測に用いる方法及び装置
JP2019124990A (ja) 解探索処理装置および解探索処理方法
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
Abd Elrahman et al. D-SmartML: a distributed automated machine learning framework
GB2572164A (en) Artificial neural networks
Hardt et al. Test-time training on nearest neighbors for large language models
CN112905809B (zh) 知识图谱学习方法和系统
Mukherjee et al. Distribution-dependent and time-uniform bounds for piecewise iid bandits
Xiao et al. Field-wise embedding size search via structural hard auxiliary mask pruning for click-through rate prediction
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Panda et al. of Decision Tree Ensembles
WO2021226709A1 (en) Neural architecture search with imitation learning
Serhani et al. Quality profile-based cloud service selection for fulfilling big data processing requirements
Bhardwaj et al. User intent classification using memory networks: A comparative analysis for a limited data scenario
Huang et al. Elastic dnn inference with unpredictable exit in edge computing
Meng et al. Learning non-stationary dynamic Bayesian network structure from data stream
US12038883B2 (en) Distributed Storage System with machine learning model for selecting a hash function to map a data item to a storage device
Pellegrini et al. Implementation effort and performance: A comparison of custom and out-of-the-box metaheuristics on the vehicle routing problem with stochastic demand

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190117

R151 Written notification of patent or utility model registration

Ref document number: 6470209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151