JP6470209B2 - サーバ、システム及び探索方法 - Google Patents
サーバ、システム及び探索方法 Download PDFInfo
- Publication number
- JP6470209B2 JP6470209B2 JP2016044316A JP2016044316A JP6470209B2 JP 6470209 B2 JP6470209 B2 JP 6470209B2 JP 2016044316 A JP2016044316 A JP 2016044316A JP 2016044316 A JP2016044316 A JP 2016044316A JP 6470209 B2 JP6470209 B2 JP 6470209B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- layer
- search
- candidate
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
論文:Practical Bayesian Optimization of Machine Learning Algorithms
http://papers.nips.cc/paper/4522-practical-bayesian-optimization
-of-machine-learning-algorithms.pdf
にその詳細が示されており、
オープンソース環境:Spearmint(https://github.com/JasperSnoek/spearmint)
Latest commit 0544113 on Oct 31 2014
に、ベイジアン探索を実装したオープンソースのハイパーパラメータ探索環境、複数のサーバにタスクを分散する処理を実装した処理が示されている。ベイジアン方式による探索では初期値により最適なハイパーパラメータが見つからない場合があるが、本実施形態ではランダム方式の探索とベイジアン方式の探索を組み合わせ、またはLWGS方式の探索とベイジアン方式の探索の組み合わせることにより、最適なハイパーパラメータを探索することができる。
図4はLWGS方式によってハイパーパラメータの次候補を作成し選定する場合の処理の流れを示すフローチャートである。ここで、L(Lは2以上の自然数)は1層当たりに探索する回数であり、N(Nは2以上の自然数)はディープニューラルネットワークの層数である。
まず、図5はディープニューラルネットワークの構成とディープニューラルネットワークの各層で処理されるハイパーパラメータの種類を例示している。ディープニューラルネットワークでは、ネットワーク層数が少なく、ハイパーパラメータの種類が3種類でそれぞれのハイパーパラメータの取り得る値が3個ある場合、ハイパーパラメータの組み合わせは33=27通りとなる。しかしながら、ディープニューラルネットワークの層数が図4のように7層で、それぞれのハイパーパラメータの取り得る値が3個ある場合、ハイパーパラメータの組み合わせは37=2,187通りとなる。もし、このディープニューラルネットワークの1回の学習に1時間かかるとしたら、2,187時間(約91日)もかかるため、最適な組み合わせを求めることは非常に困難な問題である。
まず、ニューラルネットワークによるディープラーニングのハイパーパラメータ探索では、固定したニューラルネットワークのハイパーパラメータの値のみを変更して探索するのが一般的である。しかしながら、ハイパーパラメータの値のみの変更ではなく、ニューラルネットワークの層数を変更して探索した方が性能が良い場合がある。
ニューラルネットワークによるディープラーニングでの学習は、同じデータを数十回以上繰り返し入力して学習を行うことで性能を向上させるため、学習時間が長いことが知られている。素性の良いハイパーパラメータであれば、数十回データを繰り返し入力して性能を上げることに意味がある。しかしながら、素性が悪いハイパーパラメータを数十回もデータを入力して学習しても、性能が悪いハイパーパラメータは使用されないので処理時間が無駄になってしまう。このため、ワーカー12−iにおいて、学習中に認識率などの指標を監視し、学習の途中で素性が悪いと判定したものは学習を中断し、中断した時の学習結果をマネージャー11に送信する。学習中に監視する指標とマネージャー11に返す指標は、前述のように例えば認識率、エラー率、交差エントロピーが想定される。
ニューラルネットワークによるディープラーニングは、学習時間が長いことが知られている。学習時間を短縮するために、ワーカー12−i側での学習時に学習データを1/2に減らして学習を行うようにしてもよい。
ニューラルネットワークによるディープラーニングは、重みの初期値をランダムに生成しているが、その初期値により学習後の性能が若干異なる。このため、ワーカー12−i側で学習を行うときに、1回学習を行うだけではなく、重みの初期値を複数回変更して学習を行い、平均してマネージャー11に学習結果の指標を送信する。このことにより、安定してハイパーパラメータ探索を行うことができる。
ニューラルネットワークによるディープラーニングの初期の重みはランダムで生成している。このため、場合によってはランダムで生成した値により若干の性能差が生じることがある。後で同じハイパーパラメータで学習を再び行っても、同じ性能が出ないこともある。このため、ワーカー12−iにおいて、学習を終えた時に、今までで一番性能が良かったモデル(ディープラーニングの学習結果)を保存しておき、学習結果と共にマネージャー11に通知するとよい。
ニューラルネットワークによるディープラーニングでの学習は、同じデータを数十回以上繰り返し入力して学習を行うことで性能を上げている。しかしながら、一定以上繰り返しても過学習をしてしまい、かえって認識性能などの学習結果の指標が悪化する場合もある。このため、ワーカー12−iにおいて、データを1回入力して学習を行う毎に、認識性能などの学習結果の指標を監視し、最も性能が良いときのモデル(ディープラーニングの学習結果)を保存しておくとよい。
Claims (10)
- ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索するサーバであって、
前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、
前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、
前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1処理部を備えるサーバ。 - 前記第1処理部によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2処理部をさらに備える請求項1記載のサーバ。
- 前記第1処理部は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補の探索を、一様分布に基づいて行う請求項1または請求項2に記載のサーバ。
- 前記第1処理部は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットの探索を、総当たり探索するグリッドサーチで行う請求項1乃至請求項3のいずれか1項に記載のサーバ。
- ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する第1のサーバと、第2のサーバと、第3のサーバとを備えるシステムであって、
前記第1のサーバは、
前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、
前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、
前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1の処理部と、前記第1の処理部によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2の処理部とを備え、
前記パラメータの探索範囲から前記パラメータセットの組み合わせの初期候補として、前記第1の処理部で前記パラメータセットの第1の組み合わせと前記パラメータセットの第2の組み合わせを生成し、
前記パラメータセットの第1の組み合わせを前記第2のサーバへ送信し、
前記パラメータセットの第2の組み合わせを前記第3のサーバへ送信し、
前記パラメータセットの第1の組み合わせを用いた第1学習結果を前記第2のサーバから受信し、
前記パラメータセットの第2の組み合わせを用いた第2学習結果を前記第3のサーバから受信し、
前記第1学習結果と前記第2学習結果とに基づいて、前記第2の処理部で前記パラメータセットの第3の組み合わせを生成し、
前記パラメータセットの第3の組み合わせを前記第2のサーバまたは前記第3のサーバへ送信し、
前記パラメータセットの第3の組み合わせを用いた第3学習結果を前記第2のサーバまたは前記第3のサーバから受信するシステム。 - ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する探索方法であって、
前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、
前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、
前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1の方式を備える探索方法。 - 前記第1の方式による探索処理によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2の方式をさらに備える請求項6記載の探索方法。
- 前記第1の方式は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補の探索を、一様分布に基づいて行う請求項6または請求項7に記載の探索方法。
- 前記第1の方式は、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットの探索を、総当たり探索するグリッドサーチで行う請求項6乃至請求項8のいずれか1項に記載の探索方法。
- ディープラーニングを実行するためのディープニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する第1のサーバと、第2のサーバと、第3のサーバとを備えるシステムに用いられる探索方法であって、
前記第1のサーバが、前記ディープニューラルネットワークのN(Nは2以上の自然数)個の層のうちの第1層の複数の第1パラメータの複数の候補と、前記第1層以外の1以上の層の第1パラメータセットとを用いて、前記第1層の複数の第1パラメータを探索し、上位M(Mは2以上の自然数)位の第1パラメータの候補を決定し、前記ディープニューラルネットワークのN個の層のうちの第2層の複数の第2パラメータの複数の候補と、前記第2層以外の1以上の層の第2パラメータセットとを用いて、前記第2層の複数の第2パラメータを探索し、上位L(Lは2以上の自然数)位の第2パラメータの候補を決定し、前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを探索する第1の方式と、前記第1の方式によって探索された前記第1層の上位M位の第1パラメータの候補と、前記第2層の上位L位の第2パラメータの候補とのパラメータセットを用い、さらに確率分布に基づいてパラメータセットを探索する第2の方式とを備える探索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016044316A JP6470209B2 (ja) | 2016-03-08 | 2016-03-08 | サーバ、システム及び探索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016044316A JP6470209B2 (ja) | 2016-03-08 | 2016-03-08 | サーバ、システム及び探索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017162074A JP2017162074A (ja) | 2017-09-14 |
JP6470209B2 true JP6470209B2 (ja) | 2019-02-13 |
Family
ID=59857102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016044316A Active JP6470209B2 (ja) | 2016-03-08 | 2016-03-08 | サーバ、システム及び探索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6470209B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6381768B1 (ja) | 2017-11-20 | 2018-08-29 | ヤフー株式会社 | 学習装置、学習方法、学習プログラムおよび動作プログラム |
KR102605220B1 (ko) * | 2018-04-11 | 2023-11-23 | 삼성에스디에스 주식회사 | 하이퍼파라미터의 최적화 시스템 및 방법 |
US11741342B2 (en) * | 2018-05-18 | 2023-08-29 | Baidu Usa Llc | Resource-efficient neural architects |
WO2019234907A1 (ja) * | 2018-06-08 | 2019-12-12 | 日本電気株式会社 | 制御装置、制御方法、及び、制御プログラムが記録された記録媒体 |
-
2016
- 2016-03-08 JP JP2016044316A patent/JP6470209B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017162074A (ja) | 2017-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6470165B2 (ja) | サーバ、システム及び探索方法 | |
Martínez et al. | A methodology for applying k-nearest neighbor to time series forecasting | |
Nseef et al. | An adaptive multi-population artificial bee colony algorithm for dynamic optimisation problems | |
CN113064879B (zh) | 数据库参数调整方法、装置及计算机可读存储介质 | |
JP6470209B2 (ja) | サーバ、システム及び探索方法 | |
JP2016126770A (ja) | 実行時間予測のためのデータベースクエリのクラスタリング | |
Assunção et al. | Fast denser: Efficient deep neuroevolution | |
JP2017199362A (ja) | 非定常時系列データの予測に用いる方法及び装置 | |
JP2019124990A (ja) | 解探索処理装置および解探索処理方法 | |
KR102142943B1 (ko) | 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치 | |
Abd Elrahman et al. | D-SmartML: a distributed automated machine learning framework | |
GB2572164A (en) | Artificial neural networks | |
Hardt et al. | Test-time training on nearest neighbors for large language models | |
CN112905809B (zh) | 知识图谱学习方法和系统 | |
Mukherjee et al. | Distribution-dependent and time-uniform bounds for piecewise iid bandits | |
Xiao et al. | Field-wise embedding size search via structural hard auxiliary mask pruning for click-through rate prediction | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
Panda et al. | of Decision Tree Ensembles | |
WO2021226709A1 (en) | Neural architecture search with imitation learning | |
Serhani et al. | Quality profile-based cloud service selection for fulfilling big data processing requirements | |
Bhardwaj et al. | User intent classification using memory networks: A comparative analysis for a limited data scenario | |
Huang et al. | Elastic dnn inference with unpredictable exit in edge computing | |
Meng et al. | Learning non-stationary dynamic Bayesian network structure from data stream | |
US12038883B2 (en) | Distributed Storage System with machine learning model for selecting a hash function to map a data item to a storage device | |
Pellegrini et al. | Implementation effort and performance: A comparison of custom and out-of-the-box metaheuristics on the vehicle routing problem with stochastic demand |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190117 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6470209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |