JP2023090055A - 機械学習における分散学習 - Google Patents

機械学習における分散学習 Download PDF

Info

Publication number
JP2023090055A
JP2023090055A JP2021204794A JP2021204794A JP2023090055A JP 2023090055 A JP2023090055 A JP 2023090055A JP 2021204794 A JP2021204794 A JP 2021204794A JP 2021204794 A JP2021204794 A JP 2021204794A JP 2023090055 A JP2023090055 A JP 2023090055A
Authority
JP
Japan
Prior art keywords
learning
information processing
model
combination
hyperparameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021204794A
Other languages
English (en)
Other versions
JP7199115B1 (ja
Inventor
望 窪田
Nozomu KUBOTA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2021204794A priority Critical patent/JP7199115B1/ja
Priority to US18/083,363 priority patent/US20230196123A1/en
Priority to CN202211623328.XA priority patent/CN116266282A/zh
Application granted granted Critical
Publication of JP7199115B1 publication Critical patent/JP7199115B1/ja
Publication of JP2023090055A publication Critical patent/JP2023090055A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供する。【解決手段】所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置により実行される情報処理方法であって、プロセッサは、1又は複数のデータセットに対して、並列して学習されるインスタンス数及び/又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、他の各情報処理装置から、それぞれの組み合わせに対応する学習性能を取得すること、それぞれの組み合わせと、それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、教師あり学習により、インスタンス数及び/又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、を実行する。【選択図】図7

Description

本発明は、機械学習における分散学習を実行するための情報処理方法、情報処理装置及びプログラムに関する。
近年、いわゆる人工知能を様々な問題に応用する試みがなされている。例えば、下記特許文献1には、様々な現実的な事象における問題の解決に用いることを目的としたモデル選択装置が記載されている。
特開2019-220063号公報
ここで、機械学習を行う際に、処理時間を軽減させるために例えばタスクを分散して並列処理することが行われうる。これにより、機械学習を負荷分散させることで、予測結果をより早く出力することができるようになる。
しかしながら、機械学習を分散して学習を行わせる分散学習では、分散学習させる際に、ハイパーパラメータを調整する必要がある。その際、分散学習を行っても、ハイパーパラメータの調整が異なるだけで、予測結果が大きく変わってしまうことが発明者の実験により分かってきた。例えば、ハイパーパラメータの1つであるweight decay(荷重衰退)の設定を変えるだけでも、精度や頑健性が変わってしまう。
そこで、本発明は、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供する。
本発明の一態様に係る情報処理方法は、所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置により実行される情報処理方法であって、前記プロセッサは、1又は複数のデータセットに対して、並列して学習されるインスタンス数及び/又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、前記教師あり学習により、インスタンス数及び/又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、を実行する。
本発明によれば、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供することができる。
実施形態に係るシステム構成の一例を示す図である。 実施形態に係る情報処理装置の物理的構成の一例を示す図である。 実施形態に係るサーバ装置の処理ブロックの一例を示す図である。 実施形態に係る情報処理装置の処理ブロックの一例を示す図である。 実施形態に係る関係情報の一例を示す図である。 実施形態に係る関係情報の表示例を示す図である。 実施形態に係るサーバ及び各情報処理装置の処理例を示すシーケンス図である。 実施形態に係るサーバの関係情報の利用に関する処理例を示すフローチャートである。
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
<システム構成>
図1は、実施形態に係るシステム構成の一例を示す図である。図1に示す例では、サーバ10と、各情報処理装置20A、20B、20C、20Dとが、ネットワークを介してデータ送受信可能なように接続される。情報処理装置を個別に区別しない場合は情報処理装置20とも表記する。
サーバ10は、データを収集、分析可能な情報処理装置であり、1つ又は複数の情報処理装置から構成されてもよい。情報処理装置20は、スマートフォン、パーソナルコンピュータ、タブレット端末、サーバ、コネクティッドカーなど、機械学習を実行可能な情報処理装置である。なお、情報処理装置20は、脳波をセンシングする侵襲型又は非侵襲型の電極に直接的又は間接的に接続されており、脳波データを解析、送受信可能な装置でもよい。
図1に示すシステムでは、サーバ10は、所定の機械学習に対する分散学習を制御する。例えば、サーバ10は、所定の機械学習を行う際に、ミニバッチを複数の情報処理装置に分散するデータ並列、又は、1つのモデルを複数の情報処理装置に分散するモデル並列のいずれかを行って分散させる。
ここで、分散学習の場合、従来はエンジニアがハイパーパラメータ調整や分散インスタンス数の決定を行っており、実験してみないと結果がどうなるのかわからなかった。時間をかけて分散学習を行っても、結果が良くない場合は、ハイパーパラメータが調整されたり、分散インスタンス数が変更されたりした後に再度実験が行われ、非効率であった。
そこで、サーバ10は、事前に任意のデータセットに対して分散学習を行い、各情報処理装置20から取得した学習性能又は学習時間(各学習時間の最大値など)を、学習時の分散インスタンス数及び/又はハイパーパラメータの組にラベル付けしておく。次に、サーバ10は、分散インスタンス数及び/又はハイパーパラメータの組と、学習性能及び/又は学習時間とを含む学習データとする教師あり学習を行う。この教師あり学習の結果、所定のデータセットに対して、分散インスタンス数及び/又はハイパーパラメータの組ごとに、学習性能又は学習時間を予測する予測モデルが生成される。
これにより、分散学習の際に、エンジニアが実験してみてハイパーパラメータや分散インスタンス数を調整する必要がなくなり、所定のデータセットに対して、所望の学習性能又は学習時間に対応する分散インスタンス数及び/又はハイパーパラメータを特定することができる。以下、本実施形態の各装置の構成について説明する。
<ハードウェア構成>
図2は、実施形態に係る情報処理装置10の物理的構成の一例を示す図である。情報処理装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。
本実施形態では、情報処理装置10が一台のコンピュータで構成される場合について説明するが、情報処理装置10は、複数のコンピュータ又は複数の演算部が組み合わされて実現されてもよい。また、図1で示す構成は一例であり、情報処理装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
CPU10aは、プロセッサの一例であり、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、例えば、所定の学習モデルを用いて学習を行うプログラム(学習プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、各学習モデル(予測モデル、分散学習用の学習モデルなど)、各学習モデルのパラメータに関するデータ、学習対象データの特徴量に関するデータなどを記憶してもよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば学習プログラムや、書き換えが行われないデータを記憶してよい。
通信部10dは、情報処理装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fが演算結果を表示することは、XAI(eXplainable AI:説明可能なAI)に貢献し得る。表示部10fは、例えば、学習結果や、学習に関連するデータを表示してもよい。
学習プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な非一時的な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。情報処理装置10では、CPU10aが学習プログラムを実行することにより、後述する図3を用いて説明する様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。また、情報処理装置10は、GPU(Graphical Processing Unit)やASIC(Application Specific Integrated Circuit)を備えていてもよい。
なお、情報処理装置20の構成は、図2に示す情報処理装置10の構成と同様であるため、その説明を省略する。また、情報処理装置10と情報処理装置20とは、データ処理を行う基本的な構成であるCPU10aやRAM10b等を有していればよく、入力部10eや表示部10fは設けられなくてもよい。また、入力部10eや表示部10fは、外部からインターフェースを用いて接続されてもよい。
<処理構成>
図3は、実施形態に係る情報処理装置(サーバ装置)10の処理ブロックの一例を示す図である。情報処理装置10は、分散制御部11、取得部12、学習部13、生成部14、予測部15、特定部16、表示制御部17、及び記憶部18を備える。情報処理装置10は、汎用のコンピュータで構成されてもよい。
分散制御部11は、1又は複数のデータセットに対して、並列して学習されるインスタンス数及び/又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、所定の学習モデルを用いて各情報処理装置20に機械学習を行わせる。例えば、分散制御部11は、分散インスタンス数Nを2に設定し、ハイパーパラメータHを所定の値に設定する。ハイパーパラメータHは、例えば1又は複数のパラメータがあり、各パラメータに対してそれぞれの値が設定される。ハイパーパラメータH、複数のパラメータの集合を表してもよい。
データセットは、例えば、画像データ、系列データ及びテキストデータの少なくともいずれかを含む。ここで、画像データは、静止画のデータと、動画のデータとを含む。系列データは、音声データや株価のデータなどを含む。
分散制御部11は、分散インスタンス数とハイパーパラメータとを設定した場合、分散インスタンス数Nに応じた数の情報処理装置20に、設定したハイパーパラメータを出力して分散学習を行わせる。このとき、分散制御部11は、分散学習に用いる学習モデルを情報処理装置20に出力してもよい。また、分散制御部11は、自装置を分散学習の1つに含めるようにしてもよい。
分散制御部11は、分散インスタンス数Nを変更する度、又はハイパーパラメータHを変更する度に、各情報処理装置20に分散学習を行うよう指示する。例えば、分散制御部11は分散インスタンス数Nを固定したまま、ハイパーパラメータHを変更し、ハイパーパラメータHの変更が全て終わると、分散インスタンス数を1つインクリメントする。この処理は、分散インスタンス数が上限に達するまで繰り返される。これにより、分散制御部11は、様々な分散インスタンス数とハイパーパラメータとの組み合わせによる分散学習を、各情報処理装置20に実行させることが可能になる。
取得部12は、各情報処理装置20から、分散インスタンス数とハイパーパラメータとのそれぞれの組み合わせに対応する学習性能を取得する。例えば、取得部12は、分散学習を行った各情報処理装置20から、各学習結果を取得する。学習結果には少なくとも学習性能が含まれる。
例えば、学習モデルの学習性能は、F値で表したり、F値/(学習処理の計算時間)で表したり、損失関数の値で表したりしてよい。なお、F値は、適合率(precision)をPと表し、再現率(recall)をRと表すとき、2PR/(P+R)により算出される値である。また、学習性能は、例えば、ME(平均誤差)、MAE(平均絶対誤差)、RMSE(平均平方二乗誤差)、MPE(平均誤差率)、MAPE(平均絶対誤差率)、RMSPE(平均平方二乗誤差率)、ROC(Receiver Operating Characteristic)曲線及びAUC(Area Under the Curve)、Gini Norm、Kolmogorov-Smirnov又はPrecision/Recall等を用いて表してもよい。
また、取得部12は、分散インスタンス数とハイパーパラメータとのある組み合わせに対する学習性能として、各情報処理装置20から取得された複数の学習性能を用いて、1つの学習性能、例えば平均値、中央値、最大値、又は最小値を求めてもよい。
学習部13は、任意のデータセットに対する分散インスタンス数とハイパーパラメータとの各組み合せと、各組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行う。この教師あり学習には所定の学習モデル13aが用いられる。例えば、学習モデル13aは、任意のデータセットを入力として、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能を予測するモデルである。
所定の学習モデル13aは、例えば、予測モデルであり、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも1つを含む。また、所定の学習モデル13aの具体例としては、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、DNN(Deep Neural Network)、LSTM(Long Short-Term Memory)、双方向LSTM、DQN(Deep Q-Network)、VAE(Variational AutoEncoder)、GANs(Generative Adversarial Networks)、flow-based生成モデル等のいずれかでもよい。
また、学習モデル13aは、学習済みモデルを枝刈り(Pruning)、量子化(Quantization)、蒸留(Distillation)又は転移(Transfer)して得られるモデルを含む。なお、これらは一例に過ぎず、学習部13は、これら以外の問題について、学習モデルの機械学習を行ってもよい。学習部13は、学習するデータセットの特徴に応じて学習モデル13aを選択し、この学習モデルを用いて教師あり学習を行ってもよい。また、学習部13において使用される損失関数は、学習モデル13aの出力とラベルデータとに関する2乗誤差関数であったり、クロスエントロピー関数であったりしてよい。学習部13は、損失関数の値が小さくなるように、所定の条件が満たされるまで誤差逆伝搬法を用いてハイパーパラメータを調整しながら学習を繰り返す。
生成部14は、学習部13による教師あり学習によって予測モデルを生成する。予測モデルは、学習モデル13aが学習された結果として生成されるモデルを含む。例えば、予測モデルは、任意のデータセットを入力として、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能を予測するモデルである。
以上の処理により、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供することができる。例えば、様々なデータセットに対し、任意の分散インスタンス数又はハイパーパラメータを用いて分散学習を行っておくことで多数の教師データを生成することができる。また、サーバ10は、分散学習の結果を取得して、これらを教師データとする教師あり学習を行うことで、任意のデータセットに対して分散インスタンス数又はハイパーパラメータの組み合わせごとに、学習性能を予測することが可能になる。また、
予測部15は、所定のデータセットを予測モデルに入力し、所定の学習モデルの機械学習を実行した場合の学習性能を、分散インスタンス数又はハイパーパラメータのそれぞれの組み合わせについて予測する。例えば、予測部15は、組み合せそれぞれに対して学習性能を予測し、学習性能が高い順に組み合わせを並べ替えてもよい。
以上の処理により、サーバ10は、新たなデータセットに対して、分散インスタンス数又はハイパーパラメータのそれぞれの組み合わせに対する学習性能を予測することが可能になる。したがって、エンジニアが分散インスタンス数やハイパーパラメータを調整しなくてもよくなり、サーバ10や各情報処理装置20のコンピュータ資源を有効に活用することが可能になる。
また、取得部12は、分散学習を指示した各情報処理装置20から、学習結果として学習性能とともに学習時間を取得することを含んでもよい。学習時間について、例えば学習が開始されてから結果がでるまでの時間を情報処理装置20が計測する。学習時間は、各情報処理装置20から取得された各学習時間の平均値、最大値、中央値、又は最小値のいずれかが用いられてもよい。
学習部13は、分散インスタンス数やハイパーパラメータのそれぞれの組み合わせと、それぞれの組み合わせに対応する組み合わせの学習性能及び学習時間とを含む学習データを用いて教師あり学習を行うことを含んでもよい。例えば、学習部13は、所定のデータセットが学習モデル13aに入力され、分散インスタンス数やハイパーパラメータの組み合わせそれぞれについて、学習性能及び学習時間を予測するように教師あり学習を行う。
生成部14は、学習時間を含む学習データを用いて教師あり学習が行われることにより、分散インスタンス数やハイパーパラメータの組み合わせそれぞれについて、学習性能及び学習時間を予測する予測モデルを生成してもよい。
以上の処理により、分散学習する場合の学習性能だけではなく、学習時間も予測することが可能になる。学習性能と学習時間とを考慮した分散インスタンス数やハイパーパラメータの選択が可能になる。例えば、学習時間又は学習性能は最適ではなくても、許容可能な学習時間又は学習性能に対応する分散インスタンス数やハイパーパラメータの組み合わせが選択可能になる。
予測部15は、所定のデータセットを予測モデルに入力し、所定の学習モデルの機械学習を実行した場合の学習性能及び学習時間を、分散インスタンス数やハイパーパラメータの各組み合わせについて予測することを含んでもよい。
以上の処理により、サーバ10は、新たなデータセットに対して、分散インスタンス数又はハイパーパラメータのそれぞれの組み合わせに対する学習性能及び学習時間を予測することが可能になる。したがって、エンジニアが分散インスタンス数やハイパーパラメータを調整しなくてもよくなり、サーバ10や各情報処理装置20のコンピュータ資源を有効に活用することが可能になる。
また、生成部14は、予測部15による予測された結果を用いて、学習性能を第1変数、学習時間を第2変数とし、第1変数及び第2変数と、インスタンス数及び/又はハイパーパラメータとを対応付ける関係情報(予測関係情報)を生成する。例えば、生成部14は、縦軸を第1変数、横軸を第2変数とする場合に、それぞれの変数の交点に分散インスタンス数やハイパーパラメータを対応付けたマトリックスを生成してもよい。また、生成部14は、各情報処理装置20から取得された学習性能や学習時間に基づいて、第1変数及び第2変数と、インスタンス数及び/又はハイパーパラメータとを対応付ける関係情報(実測関係情報)を生成してもよい。
以上の処理により、第1変数又は第2変数が変更された場合に、対応する分散インスタンス数やハイパーパラメータを迅速に特定することが可能になる。また、第1変数と第2変数とは、適宜変更されてもよい。例えば、第1変数として学習性能、第2変数として分散インスタンス数を適用し、特定される情報はハイパーパラメータと学習時間との組み合わせでもよい。
また、取得部12は、第1変数の第1値及び第2変数の第2値を取得してもよい。例えば、取得部12は、ユーザから指定される第1変数の第1値及び第2変数の第2値を取得する。第1値又は第2値はユーザにより適宜指定される。
この場合、特定部16は、生成部14により生成された関係情報に基づいて、第1変数の第1値及び第2変数の第2値に対応するインスタンス数及び/又はハイパーパラメータを特定する。例えば、特定部16は、関係情報を用いて、変更される第1変数の値、又は第2変数の値に対応するインスタンス数及び/又はハイパーパラメータを特定する。
表示制御部17は、特定部16により特定されたインスタンス数及び/又はハイパーパラメータを表示装置(表示部10f)に表示制御する。また、表示制御部17は、第1変数及び第2変数を変更可能にしたマトリックスをGUI(Graphical User Interface)で表してもよい(例えば、後述する図6等)。
以上の処理により、ユーザにより指定された第1変数又は第2変数に応じて特定される分散インスタンス数やハイパーパラメータを、ユーザに対して可視化することが可能になる。ユーザは、第1変数又は第2変数を変更することで、所望の分散インスタンス数やハイパーパラメータを特定し、分散学習に適用することができる。
図4は、実施形態に係る情報処理装置20の処理ブロックの一例を示す図である。情報処理装置20は、取得部21、学習部22、出力部23、及び記憶部24を備える。情報処理装置20は、汎用のコンピュータで構成されてもよい。
取得部21は、他の情報処理装置(例えばサーバ10)により、分散学習の指示とともに、所定の学習モデルに関する情報や所定のデータセットに関する情報を取得してもよい。所定の学習モデルに関する情報は、ハイパーパラメータのみでもよく、所定の学習モデル自体でもよい。所定のデータセットに関する情報は、データセット自体でもよく、所定のデータセットが格納された格納先を示す情報でもよい。
学習部22は、所定の学習を行う学習モデル22aに学習対象の所定のデータセットを入力して学習を行う。学習部22は、学習後の学習結果をサーバ10にフィードバックするように制御する。学習結果は、例えば、調整後のハイパーパラメータや、学習性能などを含み、学習時間をさらに含んでもよい。学習部22は、学習対象のデータセットの種類、及び/又は、解くべき問題に応じて、学習モデル22aを選択してもよい。
また、所定の学習モデル22aは、ニューラルネットワークを含む学習モデルであり、例えば、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも1つを含む。また、具体例としては、所定の学習モデル22aは、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、DNN(Deep Neural Network)、LSTM(Long Short-Term Memory)、双方向LSTM、DQN(Deep Q-Network)、VAE(Variational AutoEncoder)、GANs(Generative Adversarial Networks)、flow-based生成モデル等のいずれかでもよい。
また、学習モデル22aは、学習済みモデルを枝刈り(Pruning)、量子化(Quantization)、蒸留(Distillation)又は転移(Transfer)して得られるモデルを含む。なお、これらは一例に過ぎず、学習部22は、これら以外の問題について、学習モデルの機械学習を行ってもよい。また、学習部22において使用される損失関数は、学習モデル22aの出力とラベルデータとに関する2乗誤差関数であったり、クロスエントロピー関数であったりしてよい。学習部22は、損失関数の値が小さくなるように、所定の条件が満たされるまで誤差逆伝搬法を用いてハイパーパラメータを調整しながら学習を繰り返す。
出力部23は、分散学習の学習結果に関する情報を他の情報処理装置に出力する。例えば、出力部23は、学習部22による学習結果に関する情報をサーバ10に出力する。例えば、分散学習の学習結果に関する情報は、上述したように、学習性能、調整後のハイパーパラメータを含み、学習時間をさらに含んでもよい。
記憶部24は、学習部22に関するデータを記憶する。記憶部24は、所定のデータセット25aや、サーバ10から取得したデータ、学習途中のデータ、学習結果に関する情報などを記憶する。
これにより、情報処理装置20は、他の情報処理装置(例えばサーバ10)からの指示により、所定のデータセットに対して分散学習を実行し、学習結果をサーバ10にフィードバックすることが可能になる。
また、新たなデータセットに対して、サーバ10により予測されたハイパーパラメータや分散インスタンス数を利用して各情報処理装置20に分散学習を実行させることが可能になる。これにより、各情報処理装置20において、エンジニア等がハイパーパラメータや分散インスタンス数を調整しなくてもよくなり、各情報処理装置20のハードウェア資源やソフトウェア資源を効率よく使用することができるようになる。
<データ例>
図5は、実施形態に係る関係情報の一例を示す図である。図5に示す例では、関係情報は、分散学習により得られた情報を集約した実測関係情報であり、各第1変数(例、P11)及び各第2変数(例、P21)に対応する分散インスタンス数(例、N1)とハイパーパラメータ(H1)とを含む。第1変数P1nは、例えば学習性能であり、第2変数P2nは学習時間であり、変数としてはいずれかの変数だけでもよい。ハイパーパラメータHは、機械学習に用いられるパラメータの集合でもよく、例えば、weight decay、中間層のユニット数などであり、学習モデルに特有なパラメータを含んでもよい。
図5に示す関係情報について、サーバ10は、所定の分散インスタンス数とハイパーパラメータの組み合わせで分散学習を行わせた情報処理装置20から、学習性能(第1変数)と、学習時間(第2変数)とを取得する。サーバ10は、取得された学習性能と学習時間に、所定の分散インスタンス数とハイパーパラメータとを対応付ける。この対応付けを、各情報処理装置20から学習性能と学習時間とを取得するたびに行うことで、図5に示す関係情報を生成することが可能になる。また、関係情報は、予測部15により予測された結果に基づいて、任意のデータセットに対する予測関係情報が生成されてもよい。
<ユーザインタフェースの例>
図6は、実施形態に係る関係情報の表示例を示す図である。図6に示す例では、予測関係情報に含まれる第1変数と第2変数とをスライドバーを用いて変更可能にする。ユーザが第1変数又は第2変数に対してスライドバーを用いて移動させることで、例えば、移動後の第1変数(P1n)又は第2変数(P2m)に対応する学習性能、ハイパーパラメータの組み合わせ(N(P1n,P2m),H(P1n,P2m))が、対応する点に関連付けて表示される。
また、ユーザは、第1変数及び第2変数の二次元のグラフ上に所定の点を指定することで、指定された点に対応する学習性能Nと、ハイパーパラメータHとの組み合わせが表示されるようにしてもよい。なお、ハイパーパラメータHに複数のパラメータが含まれる場合は、さらにハイパーパラメータHを選択することで複数のパラメータが表示されるようにしてもよい。
これにより、サーバ10は、第1変数と第2変数との組み合わせに対応する、学習性能と学習時間との組み合わせを表示可能になる。また、視覚的に対応関係をユーザに示しながら、これから分散学習が行われる任意のデータセットに対して適切な分散インスタンス数やハイパーパラメータを選択させるユーザインタフェースを提供することが可能になる。
<処理例>
図7は、実施形態に係るサーバ10及び各情報処理装置20の処理例を示すシーケンス図である。図7に示す例では、情報処理装置を「処理装置」と表記し、分散学習を実行する装置を表す。
ステップS102において、サーバ10の分散制御部11は、所定の分散インスタンス数の処理装置20に、所定のハイパーパラメータを適用して学習を行わせるように制御する。例えば、分散制御部11は、所定の分散インスタンス数の処理装置20を選択し、選択された分散インスタンス数の処理装置20に、設定された所定のハイパーパラメータとともに学習を行うよう指示する。
ステップS104において、分散学習を実行した各処理装置20は、学習結果に関する情報をサーバ10に送信する。学習結果に関する情報は、例えば学習性能、及び/又は、学習時間を含む。サーバ10の取得部12は、各処理装置20から学習結果に関する情報を取得する。
ステップS106において、サーバ10の学習部13は、学習性能や学習時間を予測する学習モデル(予測モデル)13aと、所定のデータセットにおける分散インスタンス数やハイパーパラメータの各組み合わせに対し、各処理装置20から取得された学習性能や学習時間を正解ラベルとする学習データとを用いて、教師あり学習を実行する。
ステップS108において、サーバ10の生成部14は、学習部13の学習により生成されるモデルを予測モデルとして生成する。例えば、予測モデルは、任意のデータセットを入力として、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能又は学習時間を予測するモデルである。
ステップS110において、サーバ10の予測部15は、新たな任意のデータセットを予測モデルに入力し、分散インスタンス数及びハイパーパラメータの組み合わせごとに、学習性能及び/又は学習時間を予測する。
ステップS112において、サーバ10の生成部14は、予測部15の予測結果に基づいて、学習性能を第1変数、学習時間を第2変数とし、第1変数及び第2変数と、インスタンス数及び/又はハイパーパラメータとを対応付ける関係情報を生成する。
以上の処理により、サーバ10は、分散学習を行わせた各処理装置20から学習結果を用いて、所定のデータセットに対する分散インスタンス数及びハイパーパラメータの組合せごとに、学習性能及び/又は学習時間を予測する予測モデルを生成することができる。これにより、データセットごとに、分散インスタンス数やハイパーパラメータを調整しなくてもよくなり、効率よく分散学習を行わせることができるようになる。
また、サーバ10は、分散学習を行わせる学習モデルごとに、分散インスタンス数やハイパーパラメータの組み合わせを適宜変更して分散学習を行わせ、学習結果を取得することで、学習モデルに応じた関係情報を構築することも可能である。これにより、サーバ10は、所定の学習モデルに対応する予測モデルを用いて、所定のデータセットに対する適切な分散インスタンス数やハイパーパラメータを特定することが可能になる。
次に、関係情報の利用例について説明する。図8は、実施形態に係るサーバ10の関係情報の利用に関する処理例を示すフローチャートである。図8に示す例では、図6に示すように関係情報をグラフ化して画面に表示し、ユーザ操作に応じた分散インスタンス数やハイパーパラメータを表示するようにする。
ステップS202において、サーバ10の取得部12は、入力部10eを介してユーザ操作を受け付け、第1変数の第1値を取得する。第1値は、ユーザ操作(例えばスライドバーの移動)に応じて変更される値である。
ステップS204において、サーバ10の取得部12は、入力部10eを介してユーザ操作を受け付け、第2変数の第2値を取得する。第2値は、ユーザ操作(例えばスライドバーの移動)に応じて変更される値である。
ステップS206において、特定部16は、生成部14により生成された関係情報(例えば予測関係情報)に基づいて、第1変数の第1値及び第2変数の第2値に対応するインスタンス数及び/又はハイパーパラメータを特定する。例えば、特定部16は、関係情報を用いて、変更される第1変数の値、又は第2変数の値に対応するインスタンス数及び/又はハイパーパラメータを特定する。
ステップS208において、表示制御部17は、特定部16により特定されたインスタンス数及び/又はハイパーパラメータを表示装置(表示部10f)に出力する。また、表示制御部17は、第1変数及び第2変数を変更可能にしたマトリックスをGUIで表してもよい。
以上の処理により、ユーザは、所定のデータセットと所定の学習モデルとを用いて分散学習を行う際に、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能や学習時間を把握することが可能になる。また、ユーザが学習性能や学習時間のパラメータ値を変更することで、変更後のパラメータ値に対応する分散インスタンス数やハイパーパラメータを特定することが可能になる。
以上、実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
上記実施形態では、情報処理装置10の学習部22は、他の装置に実装されてもよく、この場合、情報処理装置10は、予測モデルを生成するための学習処理を他の装置に指示してもよい。
10、20…情報処理装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…分散制御部、12…取得部、13…学習部、13a…学習モデル、14…生成部、15…予測部、16…特定部、17…表示制御部、18…記憶部、21…取得部、22…学習部、22a…学習モデル、23…出力部、24…記憶部
以上の処理により、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供することができる。例えば、様々なデータセットに対し、任意の分散インスタンス数又はハイパーパラメータを用いて分散学習を行っておくことで多数の教師データを生成することができる。また、サーバ10は、分散学習の結果を取得して、これらを教師データとする教師あり学習を行うことで、任意のデータセットに対して分散インスタンス数又はハイパーパラメータの組み合わせごとに、学習性能を予測することが可能になる

Claims (9)

  1. 所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置により実行される情報処理方法であって、
    前記プロセッサは、
    1又は複数のデータセットに対して、並列して学習されるインスタンス数及び/又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、
    前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、
    前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、
    前記教師あり学習により、インスタンス数及び/又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、
    を実行する、情報処理方法。
  2. 前記プロセッサは、
    所定のデータセットを前記予測モデルに入力し、前記所定の学習モデルの機械学習を実行した場合の学習性能を、前記組み合わせごとに予測することを実行する、請求項1に記載の情報処理方法。
  3. 前記取得することは、
    前記学習性能とともに学習時間を取得すること、
    前記教師あり学習を行うことは、
    前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能及び学習時間とを含む学習データを用いて教師あり学習を行うことを含み、
    前記予測モデルを生成することは、
    前記教師あり学習により、インスタンス数及び/又はハイパーパラメータの組み合わせごとに、学習性能及び学習時間を予測する予測モデルを生成することを含む、請求項1に記載の情報処理方法。
  4. 前記プロセッサは、
    所定のデータセットを前記予測モデルに入力し、前記所定の学習モデルの機械学習を実行した場合の学習性能及び学習時間を、前記それぞれの組み合わせについて予測することを含む、請求項3に記載の情報処理方法。
  5. 前記プロセッサは、
    前記学習性能を第1変数、前記学習時間を第2変数とし、前記第1変数及び前記第2変数と、前記インスタンス数及び/又は前記ハイパーパラメータとを対応付ける関係情報を生成すること、
    を実行する請求項3又は4に記載の情報処理方法。
  6. 前記プロセッサは、
    前記第1変数の第1値及び前記第2変数の第2値を取得すること、
    前記関係情報に基づいて、前記第1値及び前記第2値に対応するインスタンス数及び/又はハイパーパラメータを特定すること、
    を実行する請求項5に記載の情報処理方法。
  7. 前記プロセッサは、
    特定された前記インスタンス数及び/又は前記ハイパーパラメータを表示装置に表示制御することを実行する請求項6に記載の情報処理方法。
  8. 記憶装置とプロセッサとを有する情報処理装置であって、
    前記記憶装置は、
    所定の学習モデルを記憶し、
    前記プロセッサは、
    1又は複数のデータセットに対して、並列して学習されるインスタンス数及び/又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、
    前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、
    前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、
    前記教師あり学習により、インスタンス数及び/又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、
    を実行する、情報処理装置。
  9. 所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置の前記プロセッサに、
    1又は複数のデータセットに対して、並列して学習されるインスタンス数及び/又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、
    前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、
    前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、
    前記教師あり学習により、インスタンス数及び/又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、
    を実行させる、プログラム。
JP2021204794A 2021-12-17 2021-12-17 機械学習における分散学習 Active JP7199115B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021204794A JP7199115B1 (ja) 2021-12-17 2021-12-17 機械学習における分散学習
US18/083,363 US20230196123A1 (en) 2021-12-17 2022-12-16 Federated Learning in Machine Learning
CN202211623328.XA CN116266282A (zh) 2021-12-17 2022-12-16 信息处理方法以及信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021204794A JP7199115B1 (ja) 2021-12-17 2021-12-17 機械学習における分散学習

Publications (2)

Publication Number Publication Date
JP7199115B1 JP7199115B1 (ja) 2023-01-05
JP2023090055A true JP2023090055A (ja) 2023-06-29

Family

ID=84784172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021204794A Active JP7199115B1 (ja) 2021-12-17 2021-12-17 機械学習における分散学習

Country Status (3)

Country Link
US (1) US20230196123A1 (ja)
JP (1) JP7199115B1 (ja)
CN (1) CN116266282A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218869A (ja) * 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置
JP2018159992A (ja) * 2017-03-22 2018-10-11 株式会社東芝 パラメータ調整装置、学習システム、パラメータ調整方法、およびプログラム
JP2019003408A (ja) * 2017-06-15 2019-01-10 株式会社日立製作所 ハイパーパラメータの評価方法、計算機及びプログラム
WO2021205828A1 (ja) * 2020-04-10 2021-10-14 国立大学法人 東京大学 予後予測装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218869A (ja) * 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置
JP2018159992A (ja) * 2017-03-22 2018-10-11 株式会社東芝 パラメータ調整装置、学習システム、パラメータ調整方法、およびプログラム
JP2019003408A (ja) * 2017-06-15 2019-01-10 株式会社日立製作所 ハイパーパラメータの評価方法、計算機及びプログラム
WO2021205828A1 (ja) * 2020-04-10 2021-10-14 国立大学法人 東京大学 予後予測装置、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUPTA, S., ET AL.: "Model Accuracy and Runtime Tradeoff in Distributed Deep Learning: A Systematic Study", 2016 IEEE 16TH INTERNATIONAL CONFERENCE ON DATA MINING (ICDM) [ONLINE], JPN6022027022, 12 December 2016 (2016-12-12), pages 171 - 180, XP033056026, ISSN: 0004815703, DOI: 10.1109/ICDM.2016.0028 *
WEI, Y., ET AL.: "Meta-learning Hyperparameter Performance Prediction with Neural Processes", PROCEEDINGS OF THE 38TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, vol. 139, JPN6022011101, 18 July 2021 (2021-07-18), pages 11058 - 11067, ISSN: 0004815702 *

Also Published As

Publication number Publication date
US20230196123A1 (en) 2023-06-22
JP7199115B1 (ja) 2023-01-05
CN116266282A (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US20180240041A1 (en) Distributed hyperparameter tuning system for machine learning
CN110020717A (zh) 用于生成不动点神经网络的方法和装置
CN108496189A (zh) 机器学习模型的正则化
US20200410365A1 (en) Unsupervised neural network training using learned optimizers
CN112955907A (zh) 量化训练的长短期记忆神经网络
CN109190754A (zh) 量化模型生成方法、装置和电子设备
CN110188910A (zh) 利用机器学习模型提供在线预测服务的方法及系统
CN109165081B (zh) 基于机器学习的Web应用自适应资源配置方法
JP2022033695A (ja) モデルを生成するための方法、装置、電子機器、記憶媒体、及びコンピュータプログラム製品
US20230268035A1 (en) Method and apparatus for generating chemical structure using neural network
WO2023210665A1 (ja) 計算グラフの改善
JP7437763B2 (ja) 解析装置、解析方法及び解析プログラム
JP7199115B1 (ja) 機械学習における分散学習
JP2022032703A (ja) 情報処理システム
JP2010204974A (ja) 時系列データ予測装置
JP7112802B1 (ja) 学習モデルの軽量化
KR20190092217A (ko) 데이터를 앙상블하는 장치 및 이의 동작 방법
JP2022165395A (ja) ニューラルネットワークモデルの最適化方法及びニューラルネットワークモデルに関するグラフィックユーザインターフェースを提供する方法
JP7078307B1 (ja) 学習モデルの個別化
JP7441775B2 (ja) 制御装置及び制御方法
CN111427935B (zh) 量化交易指标的预测和显示方法、电子设备和介质
KR102113264B1 (ko) 금융상품 가격 안정화 시스템의 제어 방법
JP7334928B2 (ja) タグ推薦装置、タグ推薦方法及びタグ推薦プログラム
JP2024006150A (ja) 情報処理システム
JP2024064789A (ja) 学習装置、学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211217

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221213

R150 Certificate of patent or registration of utility model

Ref document number: 7199115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150