JP2016218869A - 設定方法、設定プログラム、及び設定装置 - Google Patents

設定方法、設定プログラム、及び設定装置 Download PDF

Info

Publication number
JP2016218869A
JP2016218869A JP2015104900A JP2015104900A JP2016218869A JP 2016218869 A JP2016218869 A JP 2016218869A JP 2015104900 A JP2015104900 A JP 2015104900A JP 2015104900 A JP2015104900 A JP 2015104900A JP 2016218869 A JP2016218869 A JP 2016218869A
Authority
JP
Japan
Prior art keywords
data
probability distribution
machine learning
trial
hyperparameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015104900A
Other languages
English (en)
Other versions
JP6620422B2 (ja
Inventor
晃 浦
Akira Ura
晃 浦
小林 健一
Kenichi Kobayashi
健一 小林
晴康 上田
Haruyasu Ueda
晴康 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015104900A priority Critical patent/JP6620422B2/ja
Publication of JP2016218869A publication Critical patent/JP2016218869A/ja
Application granted granted Critical
Publication of JP6620422B2 publication Critical patent/JP6620422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 本発明の課題は、機械学習で用いられる学習アルゴリズムと学習アルゴリズムのハイパーパラメータの探索を効率的に行うことを目的とする。【解決手段】 上記課題は、アルゴリズム又はハイパーパラメータの設定処理に係るプログラムであって、複数回試行した機械学習ごとの予測モデルおよび予測精度に基づき、複数のデータ各々に対し各機械学習に関する評価値を生成し、各データに対し、予測精度の高い第1の試行群と予測精度の低い第2の試行群を生成し、各データに対し、あるハイパーパラメータが第1の試行群に入る第1の確率分布と第2の試行群に入る第2の確率分布を求め、各データに対する第1の確率分布、第2の確率分布、及び、各データに対する試行結果の類似度に基づき、第1の確率分布と第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成し、評価値、第3の確率分布、第4の確率分布、及び、次の試行に要する予測時間に基づき、次の機械学習の試行に用いられるハイパーパラメータを特定することにより達成される。【選択図】 図3

Description

本発明は、機械学習におけるハイパーパラメータの設定技術に関する。
近年、機械学習は、ビッグデータ分析等で重要な技術となっている。ガス需要量の予測をニューラルネットワークを用いて学習する技術、加重比を決定して予測精度を最大にする技術、交通状況の変化を予測して、車速予測値と車速実測値とを差が最小になるように重み係数を修正する技術等が知られている。
特開平11−126102号公報 特開2007−205001号公報 特開平10−79096号公報
J. Snoek, H. Larochelle, and R. P. Adams, "Practical bayesian optimization of machine learning algorithms", In Advances in Neural Information Processing Systems 25 (NIPS '12), pp. 2951-2959, 2012 J. Bergstra, R. Bardenet, Y. Bengio, and B. K'egl, "Algorithms for hyper-parameter optimization", In Advances in Neural Information Processing Systems 24 (NIPS '11), pp. 2546-2554, 2011 K. Swersky, J. Snoek, and R. P. Adams, "Multitask bayesian optimization", In Advances in Neural Information Processing Systems 26 (NIPS '13), pp. 2004-2012, 2013
大量データを機械学習により適切に分析・処理するためには、分析・処理に用いる学習アルゴリズムと、学習アルゴリズムで用いられるハイパーパラメータを適切に(たとえば、予測精度の最大化)設定する必要がある。これらの設定のためには、制約時間内での適切な探索が必要となる。
上記の探索を行う際に、大きいサイズのデータを用いると時間がかかり、探索における試行回数を増やすことができない。一方、小さいサイズのデータを用いて探索を行う場合、探索における試行回数を増やすことはできるが、1)個別の学習結果が、大きいサイズのデータを用いる必要がある程度に十分であるか(調べつくしたものであるか)を、機械的に判定することが困難であり、2)小さいサイズのデータを用いた学習結果と、大きいサイズのデータを用いた学習結果とを、どのように統合して利用するかは明確ではない、という課題がある。
一態様によれば、入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定処理をコンピュータに行わせるプログラムであって、該コンピュータに、複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、対象の複数のデータそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成し、複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成し、前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布を求め、前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成し、前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成し、前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する処理を行わせるプログラムが提供される。
また、上記課題を解決するための手段として、上記方法を行う装置、コンピュータに上記処理を実行させるためのプログラム、及び、そのプログラムを記憶した記憶媒体とすることもできる。
サイズが小さいデータによる試行を適切な回数で行いつつ、サイズが大きいデータによる試行の結果と統合することができる。これにより、学習アルゴリズムと学習アルゴリズムで用いられるハイパーパラメータを短時間で効率よく設定できる。
設定装置のハードウェア構成を示す図である。 第1実施例に係る調整設定部の入出力を説明する図である。 設定装置の機能構成例を示す図である。 設定装置によって行われる全体処理の流れを説明するための図である。 ハイパーパラメータθの簡易な探索方法を説明するための図である。 予測精度の観測値と分布との関係を示す図である。 予測精度と確率分布との関係を示す図である。 TPEの既存の手法を説明するためのフローチャート図である。 ステップS21での処理状態を示す図である。 ステップS22での処理状態を示す図である。 ステップS23での処理状態を示す図である。 ステップS24での処理状態を示す図である。 ステップS26での処理状態を示す図である。 データ量の違いによる予測精度の分布例を示す図である。 任意のデータの予測精度の分布の例を示す図である。 評価値生成処理を説明するためのフローチャート図である。 調整履歴テーブルのデータ例を示す図である。 予測精度の分布の例を示す図である。 試行群と確率分布との関係を示す図である。 重みwの例を説明するための図である。 第1実施例に係る調整設定処理を説明するためのフローチャート図である。 既存の学習アルゴリズムの構造を示す図である。 カテゴリカルな場合の予測精度の分布を示す図である。 第3実施例に係る調整設定部の入出力を説明する図である。 第3実施例に係る調整設定処理を説明するためのフローチャート図である。
以下、本発明の実施の形態を図面に基づいて説明する。機械学習における、本実施の形態に係る学習アルゴリズム又はハイパーパラメータの設定装置は、図1に示すようなハードウェア構成を有する。
図1は、設定装置のハードウェア構成を示す図である。図1において、設定装置100は、コンピュータによって制御される情報処理装置であって、CPU(Central Processing Unit)11と、主記憶装置12と、補助記憶装置13と、入力装置14と、表示装置15と、通信I/F(インターフェース)17と、ドライブ装置18とを有し、バスBに接続される。
CPU11は、主記憶装置12に格納されたプログラムに従って設定装置100を制御する。主記憶装置12には、RAM(Random Access Memory)、ROM(Read Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を記憶又は一時保存する。
補助記憶装置13には、HDD(Hard Disk Drive)等が用いられ、各種処理を実行するためのプログラム等のデータを格納する。補助記憶装置13に格納されているプログラムの一部が主記憶装置12にロードされ、CPU11に実行されることによって、各種処理が実現される。
入力装置14は、マウス、キーボード等を有し、ユーザが設定装置100による処理に必要な各種情報を入力するために用いられる。表示装置15は、CPU11の制御のもとに必要な各種情報を表示する。入力装置14と表示装置15とは、一体化したタッチパネル等によるユーザインタフェースであってもよい。通信I/F17は、有線又は無線などのネットワークを通じて通信を行う。通信I/F17による通信は無線又は有線に限定されるものではない。
設定装置100によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によって設定装置100に提供される。
ドライブ装置18は、ドライブ装置18にセットされた記憶媒体19(例えば、CD−ROM等)と設定装置100とのインターフェースを行う。
また、記憶媒体19に、後述される本実施の形態に係る種々の処理を実現するプログラムを格納し、この記憶媒体19に格納されたプログラムは、ドライブ装置18を介して設定装置100にインストールされる。インストールされたプログラムは、設定装置100により実行可能となる。
尚、プログラムを格納する記憶媒体19はCD−ROMに限定されず、コンピュータが読み取り可能な、構造(structure)を有する1つ以上の非一時的(non-transitory)な、有形(tangible)な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVDディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。
本実施の形態では、以下の第1実施例から第3実施例について説明する。
・第1実施例では、サイズの大きいデータD0に適切な学習アルゴリズム及びハイパーパラメータを適切に設定するために、データD0だけではなく、データD0からサンプリングした複数のデータD1〜Dnも合わせて利用する、本実施の形態の適用例を説明する。概要としては学習アルゴリズムの設定も含めて説明するが、学習アルゴリズムの設定のための詳細な説明は第2実施例の説明で行う。
・第2実施例では、第1実施例と同様に、サイズの大きいデータD0に加え、データD0からサンプリングした複数のデータD1〜Dnも合わせて利用するが、ハイパーパラメータが順序関係が定義できない離散的なカテゴリカルな場合の本実施の形態の適用例を説明する。学習アルゴリズムの選択はカテゴリカルなハイパーパラメータとみなせるため、第2実施例によりアルゴリズム選択も可能である。
・第3実施例では、本実施の形態の適用例を適用して、あるデータD1に最適な学習アルゴリズム及びハイパーパラメータを過去に調整設定したときの調整履歴データを用いて、データD1とは異なるデータD2に対して学習アルゴリズム及びハイパーパラメータを調整設定する例を説明する。
第1実施例から第3実施例において、設定装置100のハードウェア構成は図1に示す通りである。先ず、第1実施例について説明する。
図2は、第1実施例に係る調整設定部の入出力を説明する図である。図2において、第1実施例に係る調整設定部201は、入力データ6aに対して調整設定処理を行い、出力データ9aを出力する。
入力データ6aは、探索範囲7と、データD0と、データD0からサンプリングされたデータD1、D2、・・・Dnとを含む。データD0、D1、・・・Dnを総称してデータDと呼ぶ場合がある。データD0、D1、D2、・・・Dnの任意の1のデータをデータDi(i=1、・・・、n)という場合がある。
探索範囲7は、学習アルゴリズムA毎に、ハイパーパラメータθを示し、調整設定部201によって探索される範囲を指定する。探索範囲7は、学習アルゴリズムA及び学習アルゴリズムAのハイパーパラメータθであり、探索範囲7は、学習アルゴリズムA及び学習アルゴリズムAのハイパーパラメータθであり、・・・、探索範囲7は、学習アルゴリズムA及び学習アルゴリズムAのハイパーパラメータθである。
データD0は、車両の交通量、雨量、電力、生体情報等の種々のビッグデータに相当し、データD0〜Dnの中でデータ量が最も大きいデータである。データD1〜Dnは、データD0からサンプリングされたデータである。データD1〜Dnは、大小様々なサイズのデータであってもよい。データD0が後述されるデータ量の大きいデータに相当し、データD1〜Dnの任意の1つのデータが後述されるデータ量の小さいデータに相当する。
本実施の形態は、データD0、D1〜Dnのデータの特性に寄らず適用可能である。また、サンプリング方法を限定しない。
出力データ9aは、調整設定部201によって得られたデータ量が最も大きいデータD0に最適な学習アルゴリズム及びハイパーパラメータを示す。
図3は、設定装置の機能構成例を示す図である。図3において、設定装置100は、主に、機械学習部200と、調整設定部201とを有する。機械学習部200と、調整設定部201の各々は、対応するプログラムをCPU11が実行することにより実現される。
また、記憶部130には、入力データ6a、機械学習結果データ50、評価値テーブル51、試行群テーブル52、第1の確率分布テーブル53、時間予測関数t(θ、D)、調べる価値テーブル55、調整履歴テーブル56、次の試行で用いるべき設定58、出力データ9a等のデータが記憶される。
機械学習部200は、調整設定部201によって設定されたデータDi,ハイパーパラメータθ(及びアルゴリズムA)を用いて、機械学習を試行して所定事項を予測し、その予測精度を算出する。
機械学習を試行したデータDiに対応付けて、予測精度、学習時間等を示す機械学習結果データ50が記憶部130に記憶される。機械学習結果データ50には、予測した結果を含んでもよい。この機械学習結果データ50のうち、予測精度、学習時間等は、学習に用いられたデータDi、ハイパーパラメータθ等(機械学習を試行する前に、次の試行で用いるべき設定58に出力されたもの)と合わせて、調整履歴テーブル56に追加される。
調整設定部201は、更に、評価値生成部41と、試行群生成部42と、第1の確率分布算出部43と、第2の確率分布算出部44と、時間予測関数生成部45と、調べる価値算出部46と、特定部47とを有する。
評価値生成部41は、調整履歴テーブル56で示される予測精度に基づいて、データD0〜Dnから選択したデータDiに対して、複数回の機械学習に関する評価値s(D)を生成する。データDi毎に、生成された評価値s(D)が対応付けられた評価値テーブル51が記憶部130に出力される。
試行群生成部42は、選択したデータDiに対して行われた機械学習の複数回の試行から、予測精度の高い第1の試行群52aと予測精度の低い第2の試行群52bとを生成する。データDi毎に、第1の試行群52aと、第2の試行群52bとを示す試行群テーブル52が記憶部130に出力される。
第1の確率分布算出部43は、選択したデータDiに対し、あるハイパーパラメータが、第1の試行群52aに入る確率の分布を示す第1の確率分布g(θ;D)と、第2の試行群52bに入る確率の分布を示す第2の確率分布l(θ;D)とを求める。選択したデータDiの第1の確率分布g(θ;D)と、第2の確率分布l(θ;D)とが第1の確率分布テーブル53に追加される。
第2の確率分布算出部44は、選択したデータDiに対する第1の確率分布g(θ;D)、第2の確率分布l(θ;D)、及び、複数の試行結果の類似度に基づき、第1の確率分布g(θ;D)及び第2の確率分布l(θ;D)のそれぞれに対する第3の確率分布g(θ)と第4の確率分布l(θ)とを生成する。
第2の確率分布算出部44によって、第1の確率分布g(θ;D)と、第2の確率分布l(θ;D)とに対して重み付けをすることで、調べた全てのデータDとの間の確率分布の情報を共有させた、予測精度の高い第3の確率分布g(θ)と、予測精度の低い第4の確率分布l(θ)とが生成される。
時間予測関数生成部45は、ハイパーパラメータθの場合に、機械学習の次の試行に要する学習時間を予測する時間予測関数t(θ、D)を生成する。
調べる価値算出部46は、評価値s(D)と、予測精度の高い第3の確率分布g(θ)と、予測精度の低い第4の確率分布l(θ)と、時間予測関数t(θ、D)とを用いて、調べる価値α(θ、D)を求める。調べる価値α(θ、D)は後述される。データDi毎に、ハイパーパラメータθと、調べる価値α(θ、D)と、予測時間とが、調べる価値テーブル55に記憶される。
特定部47は、調べる価値テーブル55を参照して、調べる価値αに基づいて、次に調べるのに有望なデータDiを特定する。ハイパーパラメータθ及びデータDiが特定される。ハイパーパラメータθと、データDiと、予測時間とを示す次の試行で用いるべき設定58が記憶部130に出力される。
最終的に、次の試行で用いるべき設定58に出力されたものの中から、最も大きいデータD0に対して機械学習の予測精度が最も良かった最適なハイパーパラメータθ(及び学習アルゴリズム)を示す出力データ9aが出力される。
入力データ6aは、設定装置100に入力され記憶部130に格納される。機械学習結果データ50は、試行した機械学習による結果を示し、予測モデル及び予測精度等の情報を含む。予測モデルは、学習アルゴリズムAとハイパーパラメータθとにより特定される機械学習を行って得られたモデルである。
評価値テーブル51は、機械学習に関する評価値s(D)を示す。評価値s(D)は、データDi毎の追加の試行により、精度がどれくらい上がる可能性があるかを示した指標値に相当する。即ち、評価値s(D)は、各データDiに対して学習を試行すればするほど小さくなり、試行の限界にどの程度近づくかを示す。
試行群テーブル52は、データDi毎に、機械学習の複数回の試行のうち、予測精度が高い第1の試行群52aと、予測精度の低い第2の試行群52bとを対応付けたテーブルである。
時間予測関数t(θ、D)は、機械学習の次の試行に要する予測時間を示す。
第1の確率分布テーブル53は、データDi毎に、あるハイパーパラメータθが、第1の試行群52aに入る確率の分布を示す第1の確率分布g(θ;D)と、第2の試行群52bに入る確率の分布を示す第2の確率分布l(θ;D)とを対応付けたテーブルである。
第3の確率分布g(θ)は、調べた全てのデータDiを考慮して、第1の確率分布g(θ;D)に基づいて得られた、予測精度が高い第1の試行群52aに入る確率の分布を示す。第4の確率分布l(θ)は、調べた全てのデータDiを考慮して、第2の確率分布l(θ;D)に基づいて得られた、予測精度が低い第2の試行群52bに入る確率の分布を示す。
調べる価値テーブル55は、データDi毎に、ハイパーパラメータθと、調べる価値α(θ、D)と、予測時間とを対応付けたテーブルである。
調整履歴テーブル56は、調整設定部201が調整設定済みのデータDiに係る調整履歴を蓄積して記憶したテーブルである。調整履歴テーブル56は、調べた全てのデータDi、ハイパーパラメータθ(及び学習アルゴリズムA)、予測精度、学習時間等が記憶される。
次の試行で用いるべき設定58は、特定部47によって特定された、次に調べるデータD、機械学習のためのハイパーパラメータθ(及び学習アルゴリズムA)、予測時間等を示す。機械学習部200は、調整設定部201で特定された次の試行で用いるべき設定58を用いて機械学習を試行する。また、調整履歴テーブル56は、次の試行で用いるべき設定58及び機械学習結果データ50に基づいて更新される。
出力データ9aは、調整履歴テーブル56を参照し、試行した中で、データD0に対する機械学習の予測精度が最も良かったハイパーパラメータθ(及び学習アルゴリズムA)を示す。
図4は、設定装置によって行われる全体処理の流れを説明するための図である。図4において、設定装置100では、入力データ6aが入力される(ステップS1)。次の試行で用いるべき設定58を用いて、機械学習部200によって試行する(ステップS2)。
次の試行で用いるべき設定58は、データD、学習アルゴリズムA、及びハイパーパラメータθである。次の試行で用いるべき設定58は、調整設定部201によって設定されたものである。
データDは、データD0又はサンプリングされた複数のデータD1〜Dnから次に選択するデータである。学習アルゴリズムAは、データDを利用した場合に、調整設定部201が探索範囲7から特定したハイパーパラメータθを用いて最適に機械学習を行う学習アルゴリズムである。ハイパーパラメータθは、調整設定部201が探索範囲7から特定したハイパーパラメータθである。
機械学習部200による機械学習の試行によって、機械学習結果テーブル50が記憶部130に出力される。機械学習部200が利用した予測モデル、予測精度、実際の学習時間等が得られる。機械学習結果テーブル50に基づいて、今回の機械学習の情報が調整履歴テーブル56に追加される(ステップS3)。
そして、調整設定部201は、調整履歴テーブル56を参照して、次の試行で用いるべき設定58を特定、すなわち、データD、ハイパーパラメータθ等を特定する(ステップS4)。
第1の実施例では、データ量が最も大きいデータD0に最適なハイパーパラメータθ(及びハイパーパラメータA)を得る過程で、データ量が小さいデータD1〜Dnに最適な学習アルゴリズムA及びハイパーパラメータθを得る処理も並行して行う。後述されるように、データ量の小さいデータD1〜Dnと最大のデータD0では予測精度の分布が略同様であることに基づく。
第1実施例において、学習アルゴリズムAの選択もハイパーパラメータθの選択と同時に行うことができるが、説明を簡潔にするため、連続量であるハイパーパラメータθを調整する場合を主に説明する。学習アルゴリズムAの選択も含めた場合については、第2実施例で説明する。
1つの学習アルゴリズムAに対して、ハイパーパラメータは複数存在することが多い。全てのハイパーパラメータを一括して「ハイパーパラメータ」と呼び、記号θで表し、上述したようにハイパーパラメータθと記す。ハイパーパラメータθは、ベクトルθで表され、複数の要素θ、θ、・・・等を有する。ベクトルθにより複数のハイパーパラメータが要素として示される。従って、複数のハイパーパラメータのうち一つを示す場合は「ハイパーパラメータの要素」と呼ぶ。第2実施例及び第3実施例においても同様である。なお、学習アルゴリズムはカテゴリカルなハイパーパラメータとみなせるため、学習アルゴリズムとそのハイパーパラメータをまとめて、単にハイパーパラメータθと表すこともある。
最適なハイパーパラメータθを探索する単純な方法について説明する。図5は、ハイパーパラメータの簡易な探索方法を説明するための図である。ハイパーパラメータθが2つの要素θとθとを有する場合で説明する。
図5(A)では、グリッドサーチの例を示している。ハイパーパラメータθの各要素θとθの組み合せ候補を全て探索する方法である。各黒丸が組み合せ候補である。図5(B)では、ランダムサーチの例を示している。ハイパーパラメータθの各要素θとθの各々の値をランダムに決定した組み合せ候補で探索する方法である。
このようなグリッドサーチ及びランダムサーチは、探索途中で得た情報を使っていない。ハイパーパラメータθの要素数、各要素がとり得る範囲等の大きさによっては、探索処理を効率的に行なえない。予測精度の推定値を使って、精度の良い組み合せ候補が存在する領域で探索することが望ましいと考えられる。
しかし、「精度の良さそうな領域」ばかり探索すると、「ほとんど調べていないが実は良いかもしれない領域」を探索しなくなる恐れがある。「精度の良さそうな領域」に加えて、「まだ調べていない領域」も探索することで最適なハイパーパラメータθの選択の精度を改善できる。具体的には、予測精度の推定値の不確かさを狭くするようにハイパーパラメータθの要素の組み合せ候補を選択する。
図6は、予測精度の観測値と分布との関係を示す図である。図6のグラフは、横軸にハイパーパラメータθを示し、縦軸に精度を予測する関数f(θ)を示す。yは予測精度を表す確率変数であり、f(θ)は予測精度の観測値を示し、p(y|θ)はハイパーパラメータθを決めたときの予測精度の分布を示す。次に選択するハイパーパラメータθを決める手法として、ガウス過程を用いる手法(非特許文献1)と、TPE(Tree-structured Parzen Estimator、非特許文献2)とが知られている。
ガウス過程を用いる手法では、p(y|θ)を正規分布であると仮定し、平均と標準偏差とをカーネル行列を使って推定する。データ量が小さいデータでの調整結果を用いる手法が既に存在する。しかしながら、学習アルゴリズムAの選択が不可能であり、計算量が既に調べたハイパーパラメータθの3乗に比例するため、処理速度が低速となる。
TPEでは、ハイパーパラメータθを決めたときの予測精度の分布p(y|θ)が、
と表されることから、右辺を計算することで予測精度を求める。この数1では、ハイパーパラメータθの確率分布p(θ)が必要であるが、カーネル密度推定を用いて推定すればよい。
しかしながら、TPEは、データ量の小さいデータでの調整結果を用いる手法が未だ存在していない。また、非特許文献3はガウス過程に特化した方法であるため適用できない。一方、TPEでは、学習アルゴリズムAの選択が可能であり、ガウス過程を用いる方法に比べて、高速である。
TPEは1つのデータに対して適用可能な手法であるが、種々のデータ量の大きさの複数のデータに適用する仕組みを設計装置100に持たせることで、学習アルゴリズムやそのハイパーパラメータの探索時間を短縮することができると考えられる。
先ず、TPEの既存手法についてその概要を説明する。TPEでは、先ず、予測精度が良い点の割合がγ(0≦γ≦1)になるように、既に調べた点(要素の組み合せ候補)を分類して、その閾値をyとする。γに0.2、0.4等の値を予め与える。
次に、ハイパーパラメータθがyより予測精度が上回るハイパーパラメータとなる第1の確率分布g(θ)と、下回るハイパーパラメータとなる第2の確率分布l(θ)とを推定する。
図7は、予測精度と確率分布との関係を示す図である。図7(A)のグラフは、横軸にハイパーパラメータθを示し、縦軸に精度予測関数f(θ)を示す。既に調べた複数の要素の組み合せ候補が点6pで示されている。予測精度の良い点の割合γと関連する閾値y以上の点6pを第1の試行群52aに分類し、閾値y未満の点6pを第2の試行群52bに分類する。
閾値yは、第1の試行群52aに属する点6pの数と第2の試行群52bに属する点6pの数との比が、γ:1−γとなる値である。また、第1の試行群52aは予測精度の高いグループであり、第2の試行群52bは予測精度の低いグループである。
図7(B)のグラフは、第1の試行群52a及び第2の試行群52bの各々に対してカーネル密度推定により推定した第1の確率分布g(θ)と第2の確率分布l(θ)とを示している。TPEでは、g(θ)/l(θ)を最大にするハイパーパラメータθを選択する。
上述したTPEの既存の手法は、図8に示すようなフローチャートで表される。図8は、TPEの既存の手法を説明するためのフローチャート図である。TPEの既存の手法では、(学習アルゴリズムA、ハイパーパラメータθ、予測精度)の組み合せを複数示すリストと、γを入力する(ステップS21)。
既に調べた候補点6pをγ:1−γに分割するyを計算する(ステップS22)。また、ハイパーパラメータθをランダムに1つ選択する(ステップS23)。そして、第1の確率分布g(θ)と第2の確率分布l(θ)とを推定して、g(θ)/l(θ)を計算する(ステップS24)。
予め設定された指定回数を繰り返したか否かを判断する(ステップS25)。指定回数に到達していない場合(ステップS25のNo)、ステップS23から上述同様の処理を繰り返す。指定回数に達した場合(ステップS25のYes)、計算したg(θ)/l(θ)の内で最大値を示すハイパーパラメータθを出力し(ステップS26)、この処理を終了する。
指定回数は、予め与えられた繰り返し回数、繰り返し処理に費やす時間等に相当し、設計装置100のユーザによって与えられれば良い。
図9から図13にて、(学習アルゴリズムA、ハイパーパラメータθ、予測精度)の組み合せ例を示すリスト及びγ=0.4の場合で、各ステップS21〜S26の処理例を説明する。簡単のため、1つの学習アルゴリズムAに対するハイパーパラメータθだけを調整する例で説明する。
リストは、
(学習アルゴリズムA、θ=0、0.73)
(学習アルゴリズムA、θ=10、0.70)
(学習アルゴリズムA、θ=20、0.65)
(学習アルゴリズムA、θ=3.5、0.76)
(学習アルゴリズムA、θ=5.5、0.74)
の組み合せを含む。図7のステップS21では、このようなリストと、γ=0.4が与えられる。
図9は、ステップS21での処理状態を示す図である。図9のグラフでは、入力された各組み合せ内のハイパーパラメータθの値と予測精度f(θ)の値とを座標値として、各候補点6pが示されている。後述されるグラフにおいても同様である。
図10は、ステップS22での処理状態を示す図である。図10において、γ:1−γに分割する値を計算して得たy=0.74を閾値とし、予測精度がy=0.74以上の候補点6pを特定した状態を示している。5個の候補点6pの内、5×0.4=2個の候補点6pがy=0.74以上となる。
図11は、ステップS23での処理状態を示す図である。図11では、ハイパーパラメータθがランダムに1つ選択された状態を示している。
図12は、ステップS24での処理状態を示す図である。図12では、ランダムに選択されたハイパーパラメータθにおけるg(θ)/l(θ)は0.25であることを示している。
更に、ハイパーパラメータθをランダムに選択し、g(θ)/l(θ)を算出する処理を繰り返した後、g(θ)/l(θ)が最大となるハイパーパラメータθを取得する。
図13は、ステップS26での処理状態を示す図である。図13では、次に選択されたハイパーパラメータθにおいて、g(θ)/l(θ)が2.0であったことを示している。この例では、g(θ)/l(θ)が最大となるのは、ハイパーパラメータθであることが分かる。ハイパーパラメータθが出力される。
機械学習では、ビッグデータ等のデータ量の膨大なデータD0に対してハイパーパラメータθに対する学習を試すには膨大な学習時間を要し、現実的には実施できない。従って、データ量の小さいデータD1〜Dnで多くのハイパーパラメータθに対する学習を試行し、その結果をデータ量の大きいデータD0でのハイパーパラメータθの調整に利用することが考えられる。
図14は、データ量の違いによる予測精度の分布例を示す図である。図14において、データ量の異なるConvertypeの2つのデータセットに対して、RBF(radial basis function)カーネルのSVM(Support Vector Machine)を学習アルゴリズムとして用いた結果をグラフで示している。グラフの縦軸と横軸は、それぞれSVMのハイパーパラメータである。Convertypeについては、Jock A. Blackard, Covertype Data Set, https://archive.ics.uci.edu/ml/datasets/Covertypeで説明されている。
図14(A)は、データ量が小さい場合の一例としてデータ数が4,000の場合の予測精度の分布を示している。図14(B)は、データ量が大きい場合の一例としてデータ数が16,000の場合の予測精度の分布を示している。両者は、良く一致していることが分かる。
TPEで複数のデータD0〜Dnを用いる際の課題を以下に示す。
・データ量の大きいデータを使う必要があるほど、小さいデータに対する試行回数が十分であるか否かを機械的に判定することが難しい。
・データ量の小さいデータを用いた機械学習結果データ50と、大きいデータとをどのように統合して利用するかが明確でない。
上記課題に対して、発明者は、以下の解決手段を示す。
・データD0〜Dnに対して学習を試行すればするほど小さくなる指標を示す評価値s(D)を定義する。
・データ量の小さいデータと大きいデータとにおいて、第1の確率分布g(θ;D)と第2の確率分布l(θ;D)とを共有する。小さいデータに対して調べたハイパーパラメータと予測精度とを、大きいデータに対する調整に利用する。小さいデータを用いた機械学習は時間が掛らないため、データの数を多く試行できる。
・それぞれのデータに対する試行結果の類似度に基づいて、重み付けを行う。大きくデータの性質が異なる場合は、小さいデータの情報を使用しない。一方、性質が似ている場合は、小さいデータの情報を積極的に利用する。
先ず、評価値s(D)について説明する。1つのデータDに適用する既存のTPEの手法(非特許文献2等)では、以下の数2が提示されている。
この数2の分母のうちデータDに対して選択するハイパーパラメータθに関する
の部分のみを考慮し、
の部分にはハイパーパラメータθに依存しないため考慮されていない。
発明者は、既存の手法では考慮されていなかった数4に着目し、複数のデータD0、及びデータD1〜Dnの1つのデータDを調べる価値を評価s(D)として利用する。
上記数2において、時間予測関数t(θ、D)で割ったものを調べる価値α(θ、D)とする。これは既存手法においても示されている。数2は、
で示される。数6において、s(D)は、データDに対する機械学習によりどれくらい精度が上がる可能性があるかを示す評価値であり、t(θ、D)は時間予測関数であり、g(θ)は第3の確率分布であり、l(θ)は第4の確率分布である。
評価値s(D)は、複数のデータD0〜Dnに対して、任意のデータDiを調べ尽くすと小さくなる。評価値s(D)を参照することで、同じデータDiをいつまでも調べ続ける無駄な処理を削減することができる。
本実施の形態においては、複数のデータD0〜Dnを扱うため、評価値s(D)の算出に、調整履歴テーブル56が参照される。評価値s(D)は、TPEの既存手法に対して、複数のデータD0〜Dnを扱えるようにするため、先ず、閾値yをデータD毎に求めて閾値y で表す。上述した数5は、
で表される。
評価値s(D)は、データDの追加の試行による予測精度の向上の期待値を示し、小さいほど予測精度が限界に近付いていることを示す。
p(y;D)は、任意のデータDに対する、ハイパーパラメータθを決めたときの予測精度の分布を示す。p(y;D)は、カーネル密度推定により推定されればよい。第1実施例〜第3実施例を含む本実施の形態では、調整履歴テーブル56のハイパーパラメータθと、予測精度とが参照される。
図15は、任意のデータの予測精度の分布の例を示す図である。図15において、予測精度の分布p(y;D)は、データDに対して、複数の任意のハイパーパラメータθで機械学習をした際に得た予測精度の分布を示している。
この例では、閾値y に基づくグループ分けをしていない、データDの全ての調整履歴に基づく予測精度の分布p(y;D)を示している。
設定装置100において、評価値s(D)は、評価値生成部41によって生成される。評価値s(D)を生成する評価値生成処理について説明する。図16は、評価値生成処理を説明するためのフローチャート図である。
図16において、評価値生成部41は、予測精度が良い点の割合γと、データDの調整履歴とを入力する(ステップS101)。割合γは、ユーザにより与えられてもよいし、予め設定されていてもよい。評価値生成部41は、調整履歴テーブル56からデータDの調整履歴を取得する。
評価値生成部41は、予測精度で、データDの調整履歴のエントリをγ:1−γに分割するy を計算して(ステップS102)、カーネル密度推定により、p(y;D)を推定する(ステップS103)。
そして、評価値生成部41は、評価値s(D)を数7で計算して(ステップS104)、出力した後(ステップS105)、この評価値生成処理を終了する。評価値s(D)は、記憶部130内の評価値テーブル51に記憶される。
評価値s(D)の算出例について、データ量の大きいデータD_largeと小さいデータD_smallとの2つのデータとし、小さいデータD_smallの評価値s(D)を求める例で説明する。
図17は、調整履歴テーブルのデータ例を示す図である。図17において、調整履歴テーブル56は、データ名、ハイパーパラメータθ、予測精度、学習アルゴリズム等の項目を有する。
データ名は、データD0〜Dnのいずれかを識別可能な識別情報を示す。ハイパーパラメータθは、θを特定しθの各要素の値を示す。予測精度は、データ名で特定されるデータに対して、ハイパーパラメータθで試行した場合の予測精度を示す。学習アルゴリズムは、機械学習で用いた学習アルゴリズムを特定するための情報を示し、学習アルゴリズム名等を示す。この例では、簡単のため、1つの学習アルゴリズムAを用いた場合として示している。一方で、学習アルゴリズムが1つの場合には、この項目を省略可能である。
この例では、調整履歴テーブル56は、データD_largeとデータD_smallの各々に対するハイパーパラメータθ(ここでは1つの要素)と予測精度とを示している。ハイパーパラメータの複数の要素の1つを示すのみとし、簡潔に、ハイパーパラメータθとして記している。
調整履歴テーブル56には、7つのレコードが含まれ、各レコードが調整履歴を示す。調整履歴テーブル56は、データD_largeの調整履歴を2件含み、データD_smallの調整履歴56fを5件含む。
データD_smallの評価値s(D)を算出する場合、評価値生成部41は、調整履歴テーブル56から5件の調整履歴56fを抽出する(図16のステップS101)。抽出した調整履歴56fを用いて得られる予測精度の分布p(y;D_small)は、図18のように示される(図16のステップS102及びS103)。
図18は、予測精度の分布の例を示す図である。図18では、γ=0.4の場合であるが、データD_smallの予測精度分布p(y;D_small)が示される。このときのy D_smallは0.74となる。
このようにして得られた予測精度の分布p(y;D_small)を積分することで、評価値s(D)が算出され出力される(図16のステップS104及びS105)。得られる予測精度の限界に近付くにつれ、予測精度の分布p(y;D_small)は、y D_smallでピークを示し、分散の幅は極めて狭くなる。そのため、評価値s(D)が小さくなる。
より多くの試行を行うにつれて評価値s(D)が小さくなるという意味において、より簡潔に、
のように評価値s(D)を表してもよい。
次に、時間予測関数生成部45による時間予測関数生成処理について説明する。機械学習に要する学習時間は学習を実行するまでは不明である。時間予測関数t(θ、D)に係る第1の手法として、学習時間をガウス過程で推定する既存手法が存在する。データ量の小さいデータD_smallでは多数の点を調べるため低速になる。しかしながら、データD_smallに対する調整履歴の数(レコード数)が少ない場合には有効である。
第2の手法として、データDを決めた上で、θ空間上の最近傍のいくつかの点の平均を取ることが考えられる。データDのハイパーパラメータ空間上の最近傍の複数のハイパーパラメータθの予測時間の平均値を求める。小さいデータD_smallで多数の点(多くの調整履歴)を調べた場合に有効な手法である。
データDの調整履歴の数に応じて、第1の手法又は第2の手法を選択するようにしてもよい。
次に、大きいデータD_largeと小さいデータD_smallとの間の確率分布の情報の共有について説明する。図19は、試行群と確率分布との関係を示す図である。
試行群生成部42は、データD_largeに対して、予測精度の高い第1の試行群52a_largeと、予測精度の低い第2の試行群52b_largeとを生成する。同様に、試行群生成部42は、データD_smallに対して、予測精度の高い第1の試行群52a_ smallと、予測精度の低い第2の試行群52b_smallとを生成する。
図19(A)では、データD_large及びデータD_small夫々に対して試行群生成部42によって得られた第1の試行群52a_large及び第2の試行群52b_largeの例を示している。
そして、第1の確率分布算出部43は、データD_largeに対して、第1の試行群52a_largeに入る確率に対する第1の確率分布g(θ;D_large)と、第2の試行群52b_largeに入る確率に対する第2の確率分布l(θ;D_large)とを生成する。同様に、第1の確率分布算出部43は、データD_smallに対して、第1の試行群52a_smallに入る確率に対する第1の確率分布g(θ;D_small)と、第2の試行群52b_smallに入る確率に対する第2の確率分布l(θ;D_small)とを生成する。
更に、第2の確率分布算出部44によって、重みwを用いて、大きいデータD_largeと小さいデータD_smallとの間で共有した、予測精度の高い第3の確率分布g(θ)及び第4の確率分布l(θ)とが取得される。
第3の確率分布g(θ)は、大きいデータD_largeに対するg(θ;D_large)と、小さいデータD_smallに対するg(θ;D_small)とに、重みwを用いて、
によって算出される。
また、第4の確率分布l(θ)は、大きいデータD_largeに対するl(θ;D_large)と、小さいデータD_smallに対するl(θ;D_small)とに、重みwを用いて、
によって算出される。重みwは、試行群生成部42による試行結果の類似度に基づいて決定される。データ量の大きいデータD_largeとデータ用の小さいデータD_smallの試行結果が似ているときは重みを大きくする。
重みwの決定方法には、g(θ)の分類の一致割合を用いる第1の決定方法、Kolmogorov-Smirnov検定を用いる第2の決定方法等が考えられる。第1の決定方法の一例として、重みwを、データD_large及びデータD_smallに於いて、θの予測精度が両者で精度良い結果で一致する割合に設定する。
図20は、重みwの例を説明するための図である。図20において、データD_largeの予測精度がその閾値y D_large以上であるハイパーパラメータθa及びθbに対して、データD_smallの予測精度は、その閾値y D_small以上となるのは、ハイパーパラメータθaであり、ハイパーパラメータθbは、閾値y D_small未満を示す。
即ち、ハイパーパラメータθa及びθbの2個中1個が、データD_large及びデータD_smallでそれぞれの閾値y D_large及び閾値y D_small以上となる。この場合、w=1/2=0.5となる。
この第1の決定方法では、g(θ;D_large)とg(θ;D_small)に属するハイパーパラメータθの一致割合を重みwに設定するため、データD_largeで調べたハイパーパラメータθはデータD_smallでも調べておく必要がある。
第1の決定方法において、重みwを、l(θ;D_large)とl(θ;D_small)に属するハイパーパラメータθの一致割合に設定してもよい。即ち、重みwは、調整履歴(試行結果)の類似度に相当する。また、g(θ;D_large)とl(θ;D_small)、又は、l(θ;D_large)とg(θ;D_small)に属するハイパーパラメータθの一致割合としてもよい。
Kolmogorov-Smirnov検定を用いる第2の決定方法では、「二つの母集団の確率分布が同じ」を帰無仮説として、二つの分布が異なることを検定する。帰無仮説が成立する確率p値は、0から1の範囲にあり、二つの分布に差がないほど高くなるため、重みwに合っている。また、p値を変換する関数fを用いてもよい。0に偏り易い場合はf(x)=√x、1に偏り易い場合はf(x)=xなどとしてもよい。
比較する分布は、g(θ;D_large)とg(θ;D_small)とであればよい。又は、l(θ;D_large)とl(θ;D_small)とであってもよい。
Kolmogorov-Smirnov検定を用いた場合、多くのハイパーパラメータθを調べるほど、予測精度のよい箇所を調べる傾向にあり、分布が偏る場合がある。偏りを軽減するために、同じハイパーパラメータθで調べた調整履歴の予測精度を用いてもよいが、必須の事項ではない。
上記以外に、重みwの決定方法として、g(θ)とl(θ)で異なる重みを用いてもよい。
第1実施例に係る、設定装置100の調整設定部201による調整設定処理について説明する。図21は、第1実施例に係る調整設定処理を説明するためのフローチャート図である。図21において、調整設定部201は、(データDi、学習アルゴリズムA、ハイパーパラメータθ、予測精度、学習時間)の組み合せのリストと、γとを入力する(ステップS231)。
第1実施例における組み合せのリストは、調整履歴テーブル56そのものに対応する。γは、ここでは簡潔に、全てのデータDに共通の予測精度が良い点の割合とする。
次に、調整設定部201は、リストからデータDiを順に選択して、データDとする(ステップS232)。
調整設定部201の評価値生成部41は、データDにおいて、既に調べた点をγ:1−γに分割するy を計算する(ステップS233)。既に調べた点とは、リストに存在する、データDに対応付けられるハイパーパラメータθと予測精度とで示される候補点6pである。そして、評価値生成部41は、データDを調べる価値の指標となる評価値s(D)を計算する(ステップS234)。
時間予測関数生成部45は、ハイパーパラメータθをランダムに1つ選択する(ステップS235)。時間予測関数生成部45は、入力データ6aの探索範囲7からランダムに探索範囲7j(j=1、2、・・・、m)を選択し、選択した探索範囲7jで示されるハイパーパラメータθjを取得すればよい。
試行群生成部42は、ステップS233で計算したy に基づいて、データDの第1の試行群52a及び第2の試行群52bを生成する(ステップS236)。図19(A)を参照のこと。データDのデータ名と、生成された第1の試行群52a及び第2の試行群52bとが、記憶部130内の試行群テーブル52に追加して記憶される。
第1の確率分布算出部43は、データDの、第1の試行群52aの予測精度に係る第1の確率分布g(θ;D)及び第2の試行群52bの予測精度に係る第2の確率分布l(θ;D)を生成する(ステップS237)。図19(B)を参照のこと。データDのデータ名と、生成された第1の確率分布g(θ;D)及び第2の確率分布l(θ;D)とが、記憶部130内の第1の確率分布テーブル53に追加して記憶される。
また、第2の確率分布算出部44は、第1の確率分布テーブル53に記憶されている、ステップS235で選択されたハイパーパラメータθに関する全てのデータDの第1の確率分布g(θ;D)及び第2の確率分布l(θ;D)を用いて、第3の確率分布g(θ)及び第4の確率分布l(θ)を生成する(ステップS238)。第3の確率分布g(θ)は、数9で計算される。第4の確率分布l(θ)は、数10で計算される。
時間予測関数生成部45は、選択したハイパーパラメータθと、データDとを用いて、時間予測関数t(θ、D)を推定する(ステップS239)。
そして、調べる価値算出部46は、g(θ)/l(θ)を計算し、評価値s(D)と、ステップS239で推定された時間予測関数t(θ、D)と、計算したg(θ)/l(θ)とを用いて調べる価値α(θ、D)を求める(ステップS240)。時間予測関数t(θ、D)により予測時間が得られる。
処理中のデータDのデータ名と、ハイパーパラメータθと、価値α(θ、D)と、予測時間が、記憶部130内の調べる価値テーブル55に追加して記憶される。
調整設定部201は、指定回数を繰り返し処理したか否かを判断する(ステップS241)。指定回数に達していない場合(ステップS241のNo)、調整設定部201は、ステップS235へと戻り、次のハイパーパラメータθをランダムに選択して、上記同様の処理を繰り返す。
一方、指定回数に達した場合(ステップS241のYes)、調整設定部201は、入力データ6aの全データD0〜Dnに対して上述した同様の調整設定処理を終了したか否かを判断する(ステップS242)。全データD0〜Dnに対して調整設定処理を終了していない場合(ステップS242のNo)、調整設定部201は、ステップS232へと戻り、次のデータDiに対して上述した同様の処理を行う。
一方、全データD0〜Dnに対して調整設定処理を終了した場合(ステップS242のYes)、調整設定部201の特定部47は、記憶部130内の調べる価値テーブル55を参照して、調べる価値α(θ、D)が最大となるハイパーパラメータθと、データDのデータ名と、予測時間とを取得して出力する(ステップS243)。調べる価値α(θ、D)が最大となるハイパーパラメータθと、データDのデータ名と、予測時間とを示す次の試行で用いるべき設定58が記憶部130に出力され記憶される。
特定部47は、ハイパーパラメータθと、データDのデータ名と、予測時間とを示す次の試行で用いるべき設定58を出力すると共に、新たな調整履歴として調整履歴テーブル56に格納する。
次の試行で用いるべき設定58によって、機械学習部200が、次に試行するデータDが指定され、また、ハイパーパラメータθが与えられることにより、機械学習のハイパーパラメータの探索を効率良く行うことができる。
機械学習部200による次の試行で用いるべき設定58に基づく機械学習処理の新たな機械学習結果データ50を得ると、調整設定部201は、更新した調整履歴テーブル56を利用して、再び、上述したステップS231からS243までの処理を行う。
最終的に、次の試行で用いるべき設定58に出力されたものの中から、最も大きいデータD0に最適な学習アルゴリズムA及びハイパーパラメータθを示す出力データ9aが出力される。
第1実施例では、ハイパーパラメータθが連続量である場合について説明したが、TPEはカテゴリカルな場合にも適用可能である。次に、第2実施例は、ハイパーパラメータθがカテゴリカルな場合や階層構造を成している場合に対応した第2実施例について説明する。
学習アルゴリズムによっては、カテゴリカル(即ち、順序関係が定義できない離散的)なハイパーパラメータθの要素も存在する。この場合には、学習アルゴリズムAの選択そのものもカテゴリカルなハイパーパラメータθの選択であるとみなせる。
図22は、既存の学習アルゴリズムの構造を示す図である。図22では、学習アルゴリズムとして、SVMと、Passive Aggressiveを示している。
学習アルゴリズムのSVMには、linear、RBF、polynomial, sigmoid等の種々のカーネルが存在する。Linearのハイパーパラメータはc、RBFのハイパーパラメータはc及びg、polynomialのハイパーパラメータはc、r、及びd、sigmoidのハイパーパラメータはc、r、及びgである。また、学習アルゴリズムのPassive Aggressiveのハイパーパラメータはcである。
更に、ハイパーパラメータθは階層構造を成していることもある。階層構造により、ハイパーパラメータの値によって、他のハイパーパラメータの集合が変化する。そのため、学習アルゴリズムの選択をハイパーパラメータの選択とみなした場合、アルゴリズムによってそのハイパーパラメータの集合は変わってくる。
図23は、カテゴリカルな場合の予測精度の分布を示す図である。図23において、カテゴリカルなハイパーパラメータθの要素A、B、及びC毎の予測精度の分散を示している。
現在処理対象のハイパーパラメータθの要素A、B、及びCの値が同じであっても、他のハイパーパラメータの値が異なるため、予測精度も異なってくる。TPEによる処理において、従って、ハイパーパラメータθの選択は要素A、B、及びC毎に行う。
この例の場合のTPEでの計算は、以下のようになる。要素A、B、及びCの事前分布は一様分布であるとする。また、要素A、B、及びC毎に全体の試行回数に対する要素を試行した回数の比を求める。これを要素の試行割合とする。要素A、B、及びC間の割合は、事前分布と要素の試行割合の合計値の比で表される。
第1の試行群52aにおいて、全体の試行回数は5回であり、要素Aの試行回数は1回、要素Bの試行回数は3回、要素Cの試行回数は1回である。従って、g(A;D)、g(B;D)、及びg(C;D)の比は、
のように表される。
よって、
このように、各第1の確率分布g(A;D)、g(B;D)、及びg(C;D)を得る。
次に、第2の試行群52bにおいて、全体の試行回数は12回であり、要素Aの試行回数は3回、要素Bの試行回数は5回、要素Cの試行回数は4回である。従って、l(A;D)、l(B;D)、及びl(C;D)の比は、
のように表される。
よって、
このように、各第1の確率分布l(A;D)、l(B;D)、及びl(C;D)を得る。
g(θ;D)及びl(θ;D)の決め方としては、上述したTPEの計算方法以外に、各要素A、B、Cが全て、α回試行したと見なすことで、
などにより算出してもよい。
次に、カテゴリカルなハイパーパラメータθの場合のg(θ)とl(θ)の共有方法は、第1実施例と同様に重みwを与えて足し合わせる方法でよい。
重み付けについては、説明したg(θ)の一致割合を用いる場合には、第1実施例で説明した第1の決定方法でよい。検定を用いる方法では、第1実施例で説明したKolmogorov-Smirnov検定は使用できない。代わりに、カイ二乗検定を用いる。
次に、評価値s(D)は、ハイパーパラメータθが連続量であるか又はカテゴリカルであるかに依存しないため、連続量の場合の第1実施例と同様に計算可能である。
時間予測関数t(θ、D)の推定方法として、ハイパーパラメータθが連続量ではないため、連続量のみに適用可能なガウス過程は、カテゴリカルな変数に対応しない。データDを決めた上で、θ空間上の最近傍のいくつかの点の平均を取る第2の手法を選択する。
上述した第1実施例及び第2実施例では、データ量の異なる、大きいデータと小さいデータとの間における第1の確率分布g(θ;D)を共有、及び、第2の確率分布l(θ;D)を共有する場合で説明したが、データ量の違いではなく、過去に調整履歴が残っている場合に、データ実体が存在しなくても、ハイパーパラメータθが似ている場合には、最適な学習アルゴリズムAとハイパーパラメータθとを得ることができる。この場合を第3実施例として、以下に説明する。
図24は、第3実施例に係る調整設定部の入出力を説明する図である。図24において、第3実施例に係る調整設定部201は、入力データ6a−3に対して調整設定処理を行い、出力データ9a−3を出力する。
入力データ6a−3は、第1及び第2実施例と同様に探索範囲7を含むが、調整設定の対象となるデータはデータD2のみであり、データD2に対する学習アルゴリズムAとハイパーパラメータθの調整に用いるデータD1に対する調整履歴56rを含む点で、第1及び第2実施例とは異なっている。データD1の実体は存在しないが、過去に得た調整履歴56rを入力データ6a−3に含んでいる。
図25は、第3実施例に係る調整設定処理を説明するためのフローチャート図である。図25において、調整設定部201は、(データDi、学習アルゴリズムA、ハイパーパラメータθ、予測精度、学習時間)の組み合せリストと、γとを入力する(ステップS301)。
第3実施例における組み合せのリストは、調整履歴テーブル56そのものに相当する。γは、データD1、データD2それぞれについて予測精度が良い点の割合を示す値である。
次に、調整設定部201の試行群生成部42は、データD1において、既に調べた点をγ:1−γに分割するy D1を計算し(ステップS302)、同様に、データD2において、既に調べた点をγ:1−γに分割するy D2を計算する(ステップS303)。
第3実施例では、データD1に対しては、調整履歴テーブル56が参照されるのみであり、機械学習を行わない。機械学習はデータD2に対してのみ試行されるため、評価値生成部41は、評価値s(D)は1と見なし、評価値s(D)の算出を省略する。
試行群生成部42は、ステップS302で計算したy D1に基づいて、データD1の第1の試行群52a及び第2の試行群52bを生成し(ステップS304)、同様にステップS303で計算したy D2に基づいて、データD2の第1の試行群52a及び第2の試行群52bを生成する(ステップS305)。
時間予測関数生成部45は、ハイパーパラメータθをランダムに1つ選択する(ステップS306)。時間予測関数生成部45は、入力データ6a−3の探索範囲7からランダムに探索範囲7j(j=1、2、・・・、m)を選択し、選択した探索範囲7jで示されるハイパーパラメータθjを取得すればよい。
第1の確率分布算出部43は、データD1に対する、第1の試行群52aの予測精度に係る第1の確率分布g(θ、D1)及び第2の試行群52bの予測精度に係る第2の確率分布l(θ、D1)を生成し(ステップS307)、同様に、データD2に対する、第1の試行群52aの予測精度に係る第1の確率分布g(θ、D2)及び第2の試行群52bの予測精度に係る第2の確率分布l(θ、D2)を生成する(ステップS308)。
第2の確率分布算出部44は、データD1に対する第1の確率分布g(θ、D1)及びデータD2に対する第2の確率分布g(θ、D2)の情報を共有することにより、第3の確率分布g(θ)を計算し、同様にデータD1に対する第1の確率分布l(θ、D1)及びデータD2に対する第2の確率分布l(θ、D2)の情報を共有することにより、第4の確率分布l(θ)を計算する(ステップS308)。
次に、時間予測関数生成部45は、選択したハイパーパラメータθを用いて、データD2に対する時間予測関数t(θ、D2)を推定する(ステップS310)。データD1に対しては機械学習を試行しないため、時間予測関数は必要ない。
そして、調べる価値算出部46は、調べる価値α(θ、D2)を計算する(ステップS311)。これは、数6において、評価値s(D)を1とし、予測時間関数t(θ、D)をt(θ、D2)としたものになる。θ毎の調べる価値α(θ、D2)が調べる価値テーブル55に追加して記憶される。
調整設定部201は、指定回数を繰り返し処理したか否かを判断する(ステップS312)。指定回数に達していない場合(ステップS312のNo)、調整設定部201は、ステップSS306へと戻り、次のハイパーパラメータθをランダムに選択して、上記同様の処理を繰り返す。
一方、指定回数に達した場合(ステップS312のYes)、調整設定部201の特定部47は、記憶部130内の調べる価値テーブル55を参照して、調べる価値α(θ、D2)が最大となるハイパーパラメータθを取得して出力する(ステップS313)。
ハイパーパラメータθと同じ探索範囲によって学習アルゴリズムAは特定できる。データD2に最適な学習アルゴリズムA及びハイパーパラメータθとして出力データ9a−3が出力される。機械学習部200は、この出力データ9aに従ってデータD2に対する機械学習のハイパーパラメータの探索を効率的に行える。
上述したように、本実施の形態では、データ量の小さいデータによる試行を適切な回数で行いつつ、データ量の大きいデータによる試行の学習結果と統合することができる。
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、主々の変形や変更が可能である。
以上の第1〜第3実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定処理をコンピュータに行わせるプログラムであって、該コンピュータに、
複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、対象の複数のデータそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成し、
複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成し、
前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布を求め、
前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成し、
前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成し、
前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する
処理を行わせることを特徴とするプログラム。
(付記2)
前記予測精度の高さの基準となる閾値を用いて、前記機械学習の複数の前記ハイパーパラメータの各予測精度と閾値との差に基づいて、追加の試行により精度が上がる可能性を計算することにより、前記評価値を生成することを特徴とする付記1記載のプログラム。
(付記3)
各データにおいて、前記閾値以上を示す前記ハイパーパラメータを前記第1の試行群に分類し、該閾値未満を示す該ハイパーパラメータを前記第2の試行群に分類することを特徴とする付記2記載のプログラム。
(付記4)
前記複数のデータの前記第1の確率分布の各々に対して重み付けして合算することにより、該複数のデータ全体での前記第1の試行群に入る確率に対応する前記第3の確率分布を求め、また、該複数のデータの前記第2の確率分布の各々に対して前記重み付けして合算することにより、該複数のデータ全体での前記第2の試行群に入る確率に対応する前記第4の確率分布を求めることを特徴とする付記1乃至3のいずれか一項記載のプログラム。
(付記5)
前記時間予測関数では、ガウス過程で前記予測時間を推定する関数、又は、各データのハイパーパラメータ空間上の最近傍の学習をすでに試行した複数のハイパーパラメータの学習時間の平均値を求めることを特徴とする付記1乃至4のいずれか一項記載のプログラム。
(付記6)
前記コンピュータに、
前記評価値と、前記第3の確率分布と、前記第4の確率分布と、前記時間予測関数とを用いて、各データを前記機械学習により調べる価値を算出する
処理を行わせることを特徴とする付記5記載のプログラム。
(付記7)
前記複数のデータにおいて、前記調べる価値が最大値となる前記ハイパーパラメータを取得し、前記次の機械学習の試行に用いられる前記ハイパーパラメータおよび前記データを特定することを特徴とする付記6記載のプログラム。
(付記8)
前記ハイパーパラメータがカテゴリカルである場合、該ハイパーパラメータの要素毎に、前記次の機械学習の試行に用いられる該ハイパーパラメータの要素およびデータを特定することを特徴とする付記7記載のプログラム。
(付記9)
実体のない第1のデータに対して過去に得られた複数の前記ハイパーパラメータに対する前記第1の確率分布と前記第2の確率分布とを用いて、実体のある第2のデータに対する前記機械学習の前記ハイパーパラメータを特定する場合には、前記評価値を1と見なし、前記第3の確率分布と、前記第4の確率分布と、前記時間予測関数とに基づいて、該第2のデータの前記機械学習の試行に用いられる該ハイパーパラメータを特定することを特徴とする付記7記載のプログラム。
(付記10)
入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定方法であって、
複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、複数の対象データそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成し、
複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成し、
前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布を求め、
前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成し、
前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成し、
前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する
処理をコンピュータが行う設定方法。
(付記11)
入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定装置であって、
複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、複数の対象データそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成する評価値生成部と、
複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成する試行群生成部と、
前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布とを求める第1の確率分布算出部と、
前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成する第2の確率分布算出部と、
前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成する時間予測関数生成部と、
前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する特定部と
を有することを特徴とする設定装置。
(付記12)
前記評価値は、前記複数回の前記機械学習に対して、追加の試行により精度を上げる可能性を示すことを特徴とする付記11記載の設定装置。
6a 入力データ
7 探索範囲
9a 出力データ
41 評価値生成部
42 試行群生成部
43 第1の確率分布算出部
44 第2の確率分布算出部
45 時間予測関数生成部
46 調べる価値算出部
47 特定部
50 機械学習結果データ
51 評価値テーブル
52 試行群テーブル
53 第1の確率分布テーブル
55 調べる価値テーブル
56 調整履歴テーブル
58 次の試行で用いるべき設定
100 設定装置
130 記憶部

Claims (11)

  1. 入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定処理をコンピュータに行わせるプログラムであって、該コンピュータに、
    複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、対象の複数のデータそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成し、
    複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成し、
    前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布を求め、
    前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成し、
    前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成し、
    前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する
    処理を行わせることを特徴とするプログラム。
  2. 前記予測精度の高さの基準となる閾値を用いて、前記機械学習の複数の前記ハイパーパラメータの各予測精度と閾値との差に基づいて、追加の試行により精度が上がる可能性を計算することにより、前記評価値を生成することを特徴とする請求項1記載のプログラム。
  3. 各データにおいて、前記閾値以上を示す前記ハイパーパラメータを前記第1の試行群に分類し、該閾値未満を示す該ハイパーパラメータを前記第2の試行群に分類することを特徴とする請求項2記載のプログラム。
  4. 前記複数のデータの前記第1の確率分布の各々に対して重み付けして合算することにより、該複数のデータ全体での前記第1の試行群に入る確率に対応する前記第3の確率分布を求め、また、該複数のデータの前記第2の確率分布の各々に対して前記重み付けして合算することにより、該複数のデータ全体での前記第2の試行群に入る確率に対応する前記第4の確率分布を求めることを特徴とする付記1乃至3のいずれか一項記載のプログラム。
  5. 前記時間予測関数では、ガウス過程で前記予測時間を推定する関数、又は、各データのハイパーパラメータ空間上の最近傍の学習をすでに試行した複数のハイパーパラメータの学習時間の平均値を求めることを特徴とする請求項1乃至4のいずれか一項記載のプログラム。
  6. 前記コンピュータに、
    前記評価値と、前記第3の確率分布と、前記第4の確率分布と、前記時間予測関数とを用いて、各データを前記機械学習により調べる価値を算出する
    処理を行わせることを特徴とする請求項5記載のプログラム。
  7. 前記複数のデータにおいて、前記調べる価値が最大値となる前記ハイパーパラメータを取得し、前記次の機械学習の試行に用いられる前記ハイパーパラメータおよび前記データを特定することを特徴とする請求項6記載のプログラム。
  8. 前記ハイパーパラメータがカテゴリカルである場合、該ハイパーパラメータの要素毎に、前記次の機械学習の試行に用いられる該ハイパーパラメータの要素およびデータを特定することを特徴とする請求項7記載のプログラム。
  9. 実体のない第1のデータに対して過去に得られた複数の前記ハイパーパラメータに対する前記第1の確率分布と前記第2の確率分布とを用いて、実体のある第2のデータに対する前記機械学習の前記ハイパーパラメータを特定する場合には、前記評価値を1と見なし、前記第3の確率分布と、前記第4の確率分布と、前記時間予測関数とに基づいて、該第2のデータの前記機械学習の試行に用いられる該ハイパーパラメータを特定することを特徴とする請求項7記載のプログラム。
  10. 入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定方法であって、
    複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、複数の対象データそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成し、
    複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成し、
    前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布を求め、
    前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成し、
    前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成し、
    前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する
    処理をコンピュータが行う設定方法。
  11. 入力データを用いた予測モデル構築のための機械学習における、アルゴリズム又はハイパーパラメータの設定装置であって、
    複数回試行した前記機械学習の結果から得られる機械学習ごとの予測モデルおよび予測精度に基づき、複数の対象データそれぞれに対し、前記複数回の前記機械学習に関する評価値を生成する評価値生成部と、
    複数のデータそれぞれに対し、前記機械学習の複数回の試行に基づき、前記予測精度の高い第1の試行群と前記予測精度の低い第2の試行群を生成する試行群生成部と、
    前記複数のデータのそれぞれに対し、あるハイパーパラメータが前記第1の試行群に入る確率に対応する第1の確率分布と、前記第2の試行群に入る確率に対応する第2の確率分布とを求める第1の確率分布算出部と、
    前記複数のデータそれぞれに対する前記第1の確率分布、前記第2の確率分布、及び、前記複数のデータそれぞれに対する前記複数の試行結果の類似度に基づき、それぞれ、前記第1の確率分布と前記第2の確率分布に対応する、第3の確率分布と第4の確率分布とを生成する第2の確率分布算出部と、
    前記複数のデータそれぞれと、前記ハイパーパラメータに基づき、機械学習の次の試行に要する予測時間である時間予測関数を生成する時間予測関数生成部と、
    前記評価値、前記第3の確率分布、前記第4の確率分布、及び、前記時間予測関数に基づき、次の機械学習の試行に用いられるハイパーパラメータおよびデータを特定する特定部と
    を有することを特徴とする設定装置。
JP2015104900A 2015-05-22 2015-05-22 設定方法、設定プログラム、及び設定装置 Active JP6620422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015104900A JP6620422B2 (ja) 2015-05-22 2015-05-22 設定方法、設定プログラム、及び設定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015104900A JP6620422B2 (ja) 2015-05-22 2015-05-22 設定方法、設定プログラム、及び設定装置

Publications (2)

Publication Number Publication Date
JP2016218869A true JP2016218869A (ja) 2016-12-22
JP6620422B2 JP6620422B2 (ja) 2019-12-18

Family

ID=57578507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015104900A Active JP6620422B2 (ja) 2015-05-22 2015-05-22 設定方法、設定プログラム、及び設定装置

Country Status (1)

Country Link
JP (1) JP6620422B2 (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018151989A (ja) * 2017-03-14 2018-09-27 オムロン株式会社 学習結果比較装置、学習結果比較方法、及びそのプログラム
JP2018156474A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 解析装置、情報提供装置、解析方法、およびプログラム
KR20180110310A (ko) * 2017-03-28 2018-10-10 한국전자통신연구원 뇌졸중 예측과 분석 시스템 및 방법
JP2019003408A (ja) * 2017-06-15 2019-01-10 株式会社日立製作所 ハイパーパラメータの評価方法、計算機及びプログラム
JP2019079214A (ja) * 2017-10-24 2019-05-23 富士通株式会社 探索方法、探索装置および探索プログラム
JP2019159933A (ja) * 2018-03-14 2019-09-19 富士通株式会社 探索点決定プログラム、探索点決定方法および探索点決定装置
WO2019235611A1 (ja) * 2018-06-07 2019-12-12 日本電気株式会社 分析装置、分析方法および記録媒体
JP2020004054A (ja) * 2018-06-27 2020-01-09 Zホールディングス株式会社 出力装置、出力方法および出力プログラム
CN111868758A (zh) * 2018-03-06 2020-10-30 欧姆龙株式会社 信息处理装置、信息处理方法以及程序
JP2020534614A (ja) * 2017-09-20 2020-11-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 深層学習アルゴリズムを使用した入力データの評価
JPWO2020250843A1 (ja) * 2019-06-12 2020-12-17
CN112686366A (zh) * 2020-12-01 2021-04-20 江苏科技大学 一种基于随机搜索和卷积神经网络的轴承故障诊断方法
WO2021181605A1 (ja) * 2020-03-12 2021-09-16 株式会社安川電機 機械学習モデル決定システム及び機械学習モデル決定方法
JP2021152751A (ja) * 2020-03-24 2021-09-30 株式会社日立製作所 分析支援装置及び分析支援方法
JP2021533450A (ja) * 2018-08-15 2021-12-02 セールスフォース ドット コム インコーポレイティッド 機械学習のためのハイパーパラメータの識別および適用
CN114025912A (zh) * 2019-06-28 2022-02-08 三菱电机株式会社 加工条件搜索装置以及加工条件搜索方法
US11531993B2 (en) * 2018-09-25 2022-12-20 Capital One Services, Llc Machine learning-driven servicing interface
JP7199115B1 (ja) 2021-12-17 2023-01-05 望 窪田 機械学習における分散学習

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018151989A (ja) * 2017-03-14 2018-09-27 オムロン株式会社 学習結果比較装置、学習結果比較方法、及びそのプログラム
JP2018156474A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 解析装置、情報提供装置、解析方法、およびプログラム
KR20180110310A (ko) * 2017-03-28 2018-10-10 한국전자통신연구원 뇌졸중 예측과 분석 시스템 및 방법
KR101955012B1 (ko) * 2017-03-28 2019-03-08 한국전자통신연구원 뇌졸중 예측과 분석 시스템 및 방법
JP2019003408A (ja) * 2017-06-15 2019-01-10 株式会社日立製作所 ハイパーパラメータの評価方法、計算機及びプログラム
JP2020534614A (ja) * 2017-09-20 2020-11-26 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 深層学習アルゴリズムを使用した入力データの評価
JP7271515B2 (ja) 2017-09-20 2023-05-11 コーニンクレッカ フィリップス エヌ ヴェ 深層学習アルゴリズムを使用した入力データの評価
JP2019079214A (ja) * 2017-10-24 2019-05-23 富士通株式会社 探索方法、探索装置および探索プログラム
US11762679B2 (en) 2018-03-06 2023-09-19 Omron Corporation Information processing device, information processing method, and non-transitory computer-readable storage medium
CN111868758A (zh) * 2018-03-06 2020-10-30 欧姆龙株式会社 信息处理装置、信息处理方法以及程序
CN111868758B (zh) * 2018-03-06 2024-01-12 欧姆龙株式会社 信息处理装置、信息处理方法以及存储介质
JP2019159933A (ja) * 2018-03-14 2019-09-19 富士通株式会社 探索点決定プログラム、探索点決定方法および探索点決定装置
JP7003753B2 (ja) 2018-03-14 2022-01-21 富士通株式会社 探索点決定プログラム、探索点決定方法および探索点決定装置
JPWO2019235611A1 (ja) * 2018-06-07 2021-06-17 日本電気株式会社 分析装置、分析方法およびプログラム
WO2019235611A1 (ja) * 2018-06-07 2019-12-12 日本電気株式会社 分析装置、分析方法および記録媒体
JP7164799B2 (ja) 2018-06-07 2022-11-02 日本電気株式会社 分析装置、分析方法およびプログラム
JP2020004054A (ja) * 2018-06-27 2020-01-09 Zホールディングス株式会社 出力装置、出力方法および出力プログラム
JP7017478B2 (ja) 2018-06-27 2022-02-08 ヤフー株式会社 出力装置、出力方法および出力プログラム
JP2021533450A (ja) * 2018-08-15 2021-12-02 セールスフォース ドット コム インコーポレイティッド 機械学習のためのハイパーパラメータの識別および適用
JP7343568B2 (ja) 2018-08-15 2023-09-12 セールスフォース インコーポレイテッド 機械学習のためのハイパーパラメータの識別および適用
US11531993B2 (en) * 2018-09-25 2022-12-20 Capital One Services, Llc Machine learning-driven servicing interface
US11715111B2 (en) 2018-09-25 2023-08-01 Capital One Services, Llc Machine learning-driven servicing interface
JPWO2020250843A1 (ja) * 2019-06-12 2020-12-17
JP7303299B2 (ja) 2019-06-12 2023-07-04 株式会社Preferred Networks ハイパーパラメタチューニング方法、プログラム試行システム及びコンピュータプログラム
CN114025912A (zh) * 2019-06-28 2022-02-08 三菱电机株式会社 加工条件搜索装置以及加工条件搜索方法
CN114025912B (zh) * 2019-06-28 2023-08-15 三菱电机株式会社 加工条件搜索装置以及加工条件搜索方法
JP7384999B2 (ja) 2020-03-12 2023-11-21 株式会社安川電機 機械学習モデル決定システム及び機械学習モデル決定方法
WO2021181605A1 (ja) * 2020-03-12 2021-09-16 株式会社安川電機 機械学習モデル決定システム及び機械学習モデル決定方法
JP2021152751A (ja) * 2020-03-24 2021-09-30 株式会社日立製作所 分析支援装置及び分析支援方法
JP7292235B2 (ja) 2020-03-24 2023-06-16 株式会社日立製作所 分析支援装置及び分析支援方法
CN112686366A (zh) * 2020-12-01 2021-04-20 江苏科技大学 一种基于随机搜索和卷积神经网络的轴承故障诊断方法
JP7199115B1 (ja) 2021-12-17 2023-01-05 望 窪田 機械学習における分散学習
JP2023090055A (ja) * 2021-12-17 2023-06-29 望 窪田 機械学習における分散学習

Also Published As

Publication number Publication date
JP6620422B2 (ja) 2019-12-18

Similar Documents

Publication Publication Date Title
JP6620422B2 (ja) 設定方法、設定プログラム、及び設定装置
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
Razavi-Far et al. An integrated imputation-prediction scheme for prognostics of battery data with missing observations
US20170061329A1 (en) Machine learning management apparatus and method
JP6109037B2 (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
JP6179598B2 (ja) 階層隠れ変数モデル推定装置
WO2015184729A1 (en) Method and system for hyper-parameter optimization and feature tuning of machine learning algorithms
JP6525002B2 (ja) メンテナンス時期決定装置、劣化予測システム、劣化予測方法および記録媒体
EP2778990A2 (en) Method and system for designing a material
JP2019113915A (ja) 推定方法、推定装置および推定プログラム
EP2881874B1 (en) System and method for searching for new material
Tong et al. Optimal sensor placement for mode shapes using improved simulated annealing
JP6451735B2 (ja) エネルギー量推定装置、エネルギー量推定方法、及び、エネルギー量推定プログラム
CN110858062B (zh) 目标优化参数的获取方法及模型训练方法、装置
Abd-Alsabour et al. Feature selection for classification using an ant colony system
Jiang et al. An adaptive sampling strategy for Kriging metamodel based on Delaunay triangulation and TOPSIS
Mao et al. Leave-one-out cross-validation-based model selection for multi-input multi-output support vector machine
Mehrizi et al. A Bayesian Poisson–Gaussian process model for popularity learning in edge-caching networks
JP2021072100A (ja) 情報処理装置、統合モデル生成方法、及び統合モデル生成プログラム
CN112861459A (zh) 全灵敏度对抗重要性抽样产量优化方法和装置
Sarangpure et al. Automating the machine learning process using PyCaret and Streamlit
US20200134453A1 (en) Learning curve prediction apparatus, learning curve prediction method, and non-transitory computer readable medium
US20190325983A1 (en) Method and system for performing molecular design using machine learning algorithms
KR20200092989A (ko) 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별
US20230186150A1 (en) Hyperparameter selection using budget-aware bayesian optimization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191105

R150 Certificate of patent or registration of utility model

Ref document number: 6620422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150