JP6470165B2 - サーバ、システム及び探索方法 - Google Patents
サーバ、システム及び探索方法 Download PDFInfo
- Publication number
- JP6470165B2 JP6470165B2 JP2015244307A JP2015244307A JP6470165B2 JP 6470165 B2 JP6470165 B2 JP 6470165B2 JP 2015244307 A JP2015244307 A JP 2015244307A JP 2015244307 A JP2015244307 A JP 2015244307A JP 6470165 B2 JP6470165 B2 JP 6470165B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- combination
- parameters
- learning
- learning result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Description
論文:Practical Bayesian Optimization of Machine Learning Algorithms
http://papers.nips.cc/paper/4522-practical-bayesian-optimization
-of-machine-learning-algorithms.pdf
にその詳細が示されており、
オープンソース環境:Spearmint(https://github.com/JasperSnoek/spearmint)
Latest commit 0544113 on Oct 31 2014
に、ベイジアン探索を実装したオープンソースのハイパーパラメータ探索環境、複数のサーバにタスクを分散する処理を実装した処理が示されている。
まず、ニューラルネットワークによるディープラーニングのハイパーパラメータ探索では、固定したニューラルネットワークのハイパーパラメータの値のみを変更して探索するのが一般的である。しかしながら、ハイパーパラメータの値のみの変更ではなく、ニューラルネットワークの層数を変更して探索した方が性能が良い場合がある。
ニューラルネットワークによるディープラーニングでの学習は、同じデータを数十回以上繰り返し入力して学習を行うことで性能を向上させるため、学習時間が長いことが知られている。素性の良いハイパーパラメータであれば、数十回データを繰り返し入力して性能を上げることに意味がある。しかしながら、素性が悪いハイパーパラメータを数十回もデータを入力して学習しても、性能が悪いハイパーパラメータは使用されないので処理時間が無駄になってしまう。このため、ワーカー12−iにおいて、学習中に認識率などの指標を監視し、学習の途中で素性が悪いと判定したものは学習を中断し、中断した時の学習結果をマネージャー11に送信する。学習中に監視する指標とマネージャー11に返す指標は、前述のように例えば認識率、エラー率、交差エントロピーが想定される。
ニューラルネットワークによるディープラーニングは、学習時間が長いことが知られている。学習時間を短縮するために、ワーカー12−i側での学習時に学習データを1/2に減らして学習を行うようにしてもよい。
ニューラルネットワークによるディープラーニングは、重みの初期値をランダムに生成しているが、その初期値により学習後の性能が若干異なる。このため、ワーカー12−i側で学習を行うときに、1回学習を行うだけではなく、重みの初期値を複数回変更して学習を行い、平均してマネージャー11に学習結果の指標を送信する。このことにより、安定してハイパーパラメータ探索を行うことができる。
ニューラルネットワークによるディープラーニングの初期の重みはランダムで生成している。このため、場合によってはランダムで生成した値により若干の性能差が生じることがある。後で同じハイパーパラメータで学習を再び行っても、同じ性能が出ないこともある。このため、ワーカー12−iにおいて、学習を終えた時に、今までで一番性能が良かったモデル(ディープラーニングの学習結果)を保存しておき、学習結果と共にマネージャー11に通知するとよい。
ニューラルネットワークによるディープラーニングでの学習は、同じデータを数十回以上繰り返し入力して学習を行うことで性能を上げている。しかしながら、一定以上繰り返しても過学習をしてしまい、かえって認識性能などの学習結果の指標が悪化する場合もある。このため、ワーカー12−iにおいて、データを1回入力して学習を行う毎に、認識性能などの学習結果の指標を監視し、最も性能が良いときのモデル(ディープラーニングの学習結果)を保存しておくとよい。
Claims (10)
- ディープラーニングを実行するためのニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する第1のサーバと、第2のサーバと、第3のサーバとを備えるシステムの前記第1のサーバであって、
前記パラメータの探索範囲から前記パラメータの組み合わせの初期候補を一様分布に基づく探索方式で前記パラメータの第1の組み合わせと前記パラメータの第2の組み合わせを生成し、
前記パラメータの第1の組み合わせを前記第2のサーバへ送信し、
前記パラメータの第2の組み合わせを前記第3のサーバへ送信し、
前記パラメータの第1の組み合わせを用いた第1学習結果を前記第2のサーバから受信し、
前記パラメータの第2の組み合わせを用いた第2学習結果を前記第3のサーバから受信し、
前記第1学習結果と前記第2学習結果とに基づいて、確率分布に基づく探索方式で前記パラメータの第3の組み合わせを生成し、
前記パラメータの第3の組み合わせを前記第2のサーバまたは前記第3のサーバへ送信し、
前記パラメータの第3の組み合わせを用いた第3学習結果を前記第2のサーバまたは前記第3のサーバから受信するサーバ。 - 前記一様分布に基づく探索方式とは、ランダム方式であって、
前記確率分布に基づく探索方式とは、ベイジアン方式である請求項1に記載のサーバ。 - 前記第1のサーバは、
前記パラメータの第4の組み合わせに加えて、前記ニューラルネットワークの第1層数を前記第2のサーバへ送信し、
前記パラメータの第5の組み合わせに加えて、前記ニューラルネットワークの前記第1層数とは異なる第2層数を前記第2のサーバへ送信し、
前記パラメータの第4の組み合わせと、前記ニューラルネットワークの第1層数とを用いた第4学習結果を前記第2のサーバから受信し、
前記パラメータの第5の組み合わせと、前記ニューラルネットワークの第2層数とを用いた第5学習結果を前記第3のサーバから受信する請求項1に記載のサーバ。 - 請求項1記載の前記第1のサーバと、前記第2のサーバと、前記第3のサーバとを備えるシステムであって、
前記第2のサーバは、前記パラメータの第6の組み合わせを用いた学習の回数が第1閾値より大きいにもかかわらず、学習結果の指標が第2閾値に満たない場合に、前記パラメータの第6の組み合わせを用いた学習を中断してその中断結果を第6学習結果として前記第1のサーバへ送信するシステム。 - 請求項1記載の前記第1のサーバと、前記第2のサーバと、前記第3のサーバとを備えるシステムであって、
前記第2のサーバは、学習結果の指標が第3閾値以上のモデルを保存するシステム。 - ディープラーニングを実行するためのニューラルネットワークを構築し、学習の動作を規定するパラメータを探索する第1のサーバと、第2のサーバと、第3のサーバとを備えるシステムの前記第1のサーバに用いられる探索方法であって、
前記パラメータの探索範囲から前記パラメータの組み合わせの初期候補を一様分布に基づく探索方式で前記パラメータの第1の組み合わせと前記パラメータの第2の組み合わせを生成し、
前記パラメータの第1の組み合わせを前記第2のサーバへ送信し、
前記パラメータの第2の組み合わせを前記第3のサーバへ送信し、
前記パラメータの第1の組み合わせを用いた第1学習結果を前記第2のサーバから受信し、
前記パラメータの第2の組み合わせを用いた第2学習結果を前記第3のサーバから受信し、
前記第1学習結果と前記第2学習結果とに基づいて、確率分布に基づく探索方式で前記パラメータの第3の組み合わせを生成し、
前記パラメータの第3の組み合わせを前記第2のサーバまたは前記第3のサーバへ送信し、
前記パラメータの第3の組み合わせを用いた第3学習結果を前記第2のサーバまたは前記第3のサーバから受信する探索方法。 - 前記一様分布に基づく探索方式とは、ランダム方式であって、
前記確率分布に基づく探索方式とは、ベイジアン方式である請求項6に記載の探索方法。 - 前記パラメータの第4の組み合わせに加えて、ニューラルネットワークの第1層数を前記第2のサーバへ送信し、
前記パラメータの第5の組み合わせに加えて、ニューラルネットワークの前記第1層数とは異なる第2層数を前記第2のサーバへ送信し、
前記パラメータの第4の組み合わせと、前記ニューラルネットワークの第1層数とを用いた第4学習結果を前記第2のサーバから受信し、
前記パラメータの第5の組み合わせと、前記ニューラルネットワークの第2層数とを用いた第5学習結果を前記第3のサーバから受信する請求項6に記載の探索方法。 - 請求項1記載の前記第1のサーバと、前記第2のサーバと、前記第3のサーバとを備えるシステムに用いられる探索方法であって、
前記第2のサーバにて、前記パラメータの第6の組み合わせを用いた学習の回数が第1閾値より大きいにもかかわらず、学習結果の指標が第2閾値に満たない場合に、前記パラメータの第6の組み合わせを用いた学習を中断してその中断結果を第6学習結果として前記第1のサーバへ送信する探索方法。 - 請求項1記載の前記第1のサーバと、前記第2のサーバと、前記第3のサーバとを備えるシステムに用いられる探索方法であって、
前記第2のサーバにて、学習結果の指標が第3閾値以上のモデルを保存する探索方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015244307A JP6470165B2 (ja) | 2015-12-15 | 2015-12-15 | サーバ、システム及び探索方法 |
| US15/214,380 US20170169329A1 (en) | 2015-12-15 | 2016-07-19 | Server, system and search method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015244307A JP6470165B2 (ja) | 2015-12-15 | 2015-12-15 | サーバ、システム及び探索方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017111548A JP2017111548A (ja) | 2017-06-22 |
| JP6470165B2 true JP6470165B2 (ja) | 2019-02-13 |
Family
ID=59020643
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015244307A Active JP6470165B2 (ja) | 2015-12-15 | 2015-12-15 | サーバ、システム及び探索方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20170169329A1 (ja) |
| JP (1) | JP6470165B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12249426B2 (en) | 2019-10-23 | 2025-03-11 | Kabushiki Kaisha Toshiba | Healthcare support system and recording medium |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE202017106532U1 (de) * | 2016-10-28 | 2018-02-05 | Google Llc | Suche nach einer neuronalen Architektur |
| JP6974712B2 (ja) * | 2017-10-24 | 2021-12-01 | 富士通株式会社 | 探索方法、探索装置および探索プログラム |
| CN109102157A (zh) * | 2018-07-11 | 2018-12-28 | 交通银行股份有限公司 | 一种基于深度学习的银行工单派单方法及系统 |
| US11526799B2 (en) * | 2018-08-15 | 2022-12-13 | Salesforce, Inc. | Identification and application of hyperparameters for machine learning |
| KR102261473B1 (ko) * | 2018-11-30 | 2021-06-07 | 주식회사 딥바이오 | 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템 |
| CN109816116B (zh) * | 2019-01-17 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 机器学习模型中超参数的优化方法及装置 |
| JP7231012B2 (ja) * | 2019-03-19 | 2023-03-01 | 日本電気株式会社 | パラメータ調整装置、パラメータ調整方法、コンピュータプログラム及び記録媒体 |
| JP7208528B2 (ja) * | 2019-05-23 | 2023-01-19 | 富士通株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
| US11494237B2 (en) * | 2019-06-26 | 2022-11-08 | Microsoft Technology Licensing, Llc | Managing workloads of a deep neural network processor |
| US11775878B2 (en) * | 2020-12-22 | 2023-10-03 | Sas Institute Inc. | Automated machine learning test system |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6483667B2 (ja) * | 2013-05-30 | 2019-03-13 | プレジデント アンド フェローズ オブ ハーバード カレッジ | ベイズの最適化を実施するためのシステムおよび方法 |
-
2015
- 2015-12-15 JP JP2015244307A patent/JP6470165B2/ja active Active
-
2016
- 2016-07-19 US US15/214,380 patent/US20170169329A1/en not_active Abandoned
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12249426B2 (en) | 2019-10-23 | 2025-03-11 | Kabushiki Kaisha Toshiba | Healthcare support system and recording medium |
Also Published As
| Publication number | Publication date |
|---|---|
| US20170169329A1 (en) | 2017-06-15 |
| JP2017111548A (ja) | 2017-06-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6470165B2 (ja) | サーバ、システム及び探索方法 | |
| Qiu et al. | Gag: Global attributed graph neural network for streaming session-based recommendation | |
| US10832087B1 (en) | Advanced training of machine-learning models usable in control systems and other systems | |
| US11423082B2 (en) | Methods and apparatus for subgraph matching in big data analysis | |
| US10546066B2 (en) | End-to-end learning of dialogue agents for information access | |
| KR20210124109A (ko) | 정보 처리, 정보 추천의 방법과 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품 | |
| US9251156B2 (en) | Information processing devices, method, and recording medium with regard to a distributed file system | |
| US20180039890A1 (en) | Adaptive knowledge base construction method and system | |
| JP6907664B2 (ja) | 非定常時系列データの予測に用いる方法及び装置 | |
| JP2015069461A (ja) | 情報処理装置 | |
| JP6470209B2 (ja) | サーバ、システム及び探索方法 | |
| US20230297554A1 (en) | Encoder-decoder transformer for table generation | |
| Mohammad et al. | An improved self-structuring neural network | |
| Huang et al. | Elastic DNN inference with unpredictable exit in edge computing | |
| Mukherjee et al. | Distribution-dependent and time-uniform bounds for piecewise iid bandits | |
| JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
| WO2021226709A1 (en) | Neural architecture search with imitation learning | |
| JP2008226091A (ja) | 計算装置 | |
| Rungta et al. | Two-phase multimodal neural network for app categorization using APK resources | |
| Serhani et al. | Quality profile-based cloud service selection for fulfilling big data processing requirements | |
| Sarnovský et al. | Grid-based support for different text mining tasks | |
| JP5942998B2 (ja) | 線形制約条件生成装置及び方法、半正定値最適化問題求解装置、計量学習装置、並びにコンピュータ・プログラム | |
| JP2009301557A (ja) | 学習システム | |
| US12038883B2 (en) | Distributed Storage System with machine learning model for selecting a hash function to map a data item to a storage device | |
| Sharifi et al. | Adaptive case-based reasoning using support vector regression |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171201 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181128 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181218 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190117 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6470165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |