JP2023090055A

JP2023090055A - 機械学習における分散学習

Info

Publication number: JP2023090055A
Application number: JP2021204794A
Authority: JP
Inventors: 望窪田; Nozomu KUBOTA
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-06-29
Anticipated expiration: 2041-12-17
Also published as: US20230196123A1; JP7199115B1; CN116266282A

Abstract

【課題】所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供する。【解決手段】所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置により実行される情報処理方法であって、プロセッサは、１又は複数のデータセットに対して、並列して学習されるインスタンス数及び／又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、他の各情報処理装置から、それぞれの組み合わせに対応する学習性能を取得すること、それぞれの組み合わせと、それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、教師あり学習により、インスタンス数及び／又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、を実行する。【選択図】図７

Description

本発明は、機械学習における分散学習を実行するための情報処理方法、情報処理装置及びプログラムに関する。

近年、いわゆる人工知能を様々な問題に応用する試みがなされている。例えば、下記特許文献１には、様々な現実的な事象における問題の解決に用いることを目的としたモデル選択装置が記載されている。

特開２０１９－２２００６３号公報

ここで、機械学習を行う際に、処理時間を軽減させるために例えばタスクを分散して並列処理することが行われうる。これにより、機械学習を負荷分散させることで、予測結果をより早く出力することができるようになる。

しかしながら、機械学習を分散して学習を行わせる分散学習では、分散学習させる際に、ハイパーパラメータを調整する必要がある。その際、分散学習を行っても、ハイパーパラメータの調整が異なるだけで、予測結果が大きく変わってしまうことが発明者の実験により分かってきた。例えば、ハイパーパラメータの１つであるweight decay（荷重衰退）の設定を変えるだけでも、精度や頑健性が変わってしまう。

そこで、本発明は、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供する。

本発明の一態様に係る情報処理方法は、所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置により実行される情報処理方法であって、前記プロセッサは、１又は複数のデータセットに対して、並列して学習されるインスタンス数及び／又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、前記教師あり学習により、インスタンス数及び／又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、を実行する。

本発明によれば、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供することができる。

実施形態に係るシステム構成の一例を示す図である。実施形態に係る情報処理装置の物理的構成の一例を示す図である。実施形態に係るサーバ装置の処理ブロックの一例を示す図である。実施形態に係る情報処理装置の処理ブロックの一例を示す図である。実施形態に係る関係情報の一例を示す図である。実施形態に係る関係情報の表示例を示す図である。実施形態に係るサーバ及び各情報処理装置の処理例を示すシーケンス図である。実施形態に係るサーバの関係情報の利用に関する処理例を示すフローチャートである。

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

＜システム構成＞
図１は、実施形態に係るシステム構成の一例を示す図である。図１に示す例では、サーバ１０と、各情報処理装置２０Ａ、２０Ｂ、２０Ｃ、２０Ｄとが、ネットワークを介してデータ送受信可能なように接続される。情報処理装置を個別に区別しない場合は情報処理装置２０とも表記する。

サーバ１０は、データを収集、分析可能な情報処理装置であり、１つ又は複数の情報処理装置から構成されてもよい。情報処理装置２０は、スマートフォン、パーソナルコンピュータ、タブレット端末、サーバ、コネクティッドカーなど、機械学習を実行可能な情報処理装置である。なお、情報処理装置２０は、脳波をセンシングする侵襲型又は非侵襲型の電極に直接的又は間接的に接続されており、脳波データを解析、送受信可能な装置でもよい。

図１に示すシステムでは、サーバ１０は、所定の機械学習に対する分散学習を制御する。例えば、サーバ１０は、所定の機械学習を行う際に、ミニバッチを複数の情報処理装置に分散するデータ並列、又は、１つのモデルを複数の情報処理装置に分散するモデル並列のいずれかを行って分散させる。

ここで、分散学習の場合、従来はエンジニアがハイパーパラメータ調整や分散インスタンス数の決定を行っており、実験してみないと結果がどうなるのかわからなかった。時間をかけて分散学習を行っても、結果が良くない場合は、ハイパーパラメータが調整されたり、分散インスタンス数が変更されたりした後に再度実験が行われ、非効率であった。

そこで、サーバ１０は、事前に任意のデータセットに対して分散学習を行い、各情報処理装置２０から取得した学習性能又は学習時間（各学習時間の最大値など）を、学習時の分散インスタンス数及び／又はハイパーパラメータの組にラベル付けしておく。次に、サーバ１０は、分散インスタンス数及び／又はハイパーパラメータの組と、学習性能及び／又は学習時間とを含む学習データとする教師あり学習を行う。この教師あり学習の結果、所定のデータセットに対して、分散インスタンス数及び／又はハイパーパラメータの組ごとに、学習性能又は学習時間を予測する予測モデルが生成される。

これにより、分散学習の際に、エンジニアが実験してみてハイパーパラメータや分散インスタンス数を調整する必要がなくなり、所定のデータセットに対して、所望の学習性能又は学習時間に対応する分散インスタンス数及び／又はハイパーパラメータを特定することができる。以下、本実施形態の各装置の構成について説明する。

＜ハードウェア構成＞
図２は、実施形態に係る情報処理装置１０の物理的構成の一例を示す図である。情報処理装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。

本実施形態では、情報処理装置１０が一台のコンピュータで構成される場合について説明するが、情報処理装置１０は、複数のコンピュータ又は複数の演算部が組み合わされて実現されてもよい。また、図１で示す構成は一例であり、情報処理装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

ＣＰＵ１０ａは、プロセッサの一例であり、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、例えば、所定の学習モデルを用いて学習を行うプログラム（学習プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりする。

ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、各学習モデル（予測モデル、分散学習用の学習モデルなど）、各学習モデルのパラメータに関するデータ、学習対象データの特徴量に関するデータなどを記憶してもよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば学習プログラムや、書き換えが行われないデータを記憶してよい。

通信部１０ｄは、情報処理装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｆが演算結果を表示することは、ＸＡＩ（eXplainable AI：説明可能なＡＩ）に貢献し得る。表示部１０ｆは、例えば、学習結果や、学習に関連するデータを表示してもよい。

学習プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な非一時的な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。情報処理装置１０では、ＣＰＵ１０ａが学習プログラムを実行することにより、後述する図３を用いて説明する様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。また、情報処理装置１０は、ＧＰＵ（Graphical Processing Unit）やＡＳＩＣ（Application Specific Integrated Circuit）を備えていてもよい。

なお、情報処理装置２０の構成は、図２に示す情報処理装置１０の構成と同様であるため、その説明を省略する。また、情報処理装置１０と情報処理装置２０とは、データ処理を行う基本的な構成であるＣＰＵ１０ａやＲＡＭ１０ｂ等を有していればよく、入力部１０ｅや表示部１０ｆは設けられなくてもよい。また、入力部１０ｅや表示部１０ｆは、外部からインターフェースを用いて接続されてもよい。

＜処理構成＞
図３は、実施形態に係る情報処理装置（サーバ装置）１０の処理ブロックの一例を示す図である。情報処理装置１０は、分散制御部１１、取得部１２、学習部１３、生成部１４、予測部１５、特定部１６、表示制御部１７、及び記憶部１８を備える。情報処理装置１０は、汎用のコンピュータで構成されてもよい。

分散制御部１１は、１又は複数のデータセットに対して、並列して学習されるインスタンス数及び／又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、所定の学習モデルを用いて各情報処理装置２０に機械学習を行わせる。例えば、分散制御部１１は、分散インスタンス数Ｎを２に設定し、ハイパーパラメータＨを所定の値に設定する。ハイパーパラメータＨは、例えば１又は複数のパラメータがあり、各パラメータに対してそれぞれの値が設定される。ハイパーパラメータＨ、複数のパラメータの集合を表してもよい。

データセットは、例えば、画像データ、系列データ及びテキストデータの少なくともいずれかを含む。ここで、画像データは、静止画のデータと、動画のデータとを含む。系列データは、音声データや株価のデータなどを含む。

分散制御部１１は、分散インスタンス数とハイパーパラメータとを設定した場合、分散インスタンス数Ｎに応じた数の情報処理装置２０に、設定したハイパーパラメータを出力して分散学習を行わせる。このとき、分散制御部１１は、分散学習に用いる学習モデルを情報処理装置２０に出力してもよい。また、分散制御部１１は、自装置を分散学習の１つに含めるようにしてもよい。

分散制御部１１は、分散インスタンス数Ｎを変更する度、又はハイパーパラメータＨを変更する度に、各情報処理装置２０に分散学習を行うよう指示する。例えば、分散制御部１１は分散インスタンス数Ｎを固定したまま、ハイパーパラメータＨを変更し、ハイパーパラメータＨの変更が全て終わると、分散インスタンス数を１つインクリメントする。この処理は、分散インスタンス数が上限に達するまで繰り返される。これにより、分散制御部１１は、様々な分散インスタンス数とハイパーパラメータとの組み合わせによる分散学習を、各情報処理装置２０に実行させることが可能になる。

取得部１２は、各情報処理装置２０から、分散インスタンス数とハイパーパラメータとのそれぞれの組み合わせに対応する学習性能を取得する。例えば、取得部１２は、分散学習を行った各情報処理装置２０から、各学習結果を取得する。学習結果には少なくとも学習性能が含まれる。

例えば、学習モデルの学習性能は、Ｆ値で表したり、Ｆ値／（学習処理の計算時間）で表したり、損失関数の値で表したりしてよい。なお、Ｆ値は、適合率（precision）をＰと表し、再現率（recall）をＲと表すとき、２ＰＲ／（Ｐ＋Ｒ）により算出される値である。また、学習性能は、例えば、ＭＥ（平均誤差）、ＭＡＥ（平均絶対誤差）、ＲＭＳＥ（平均平方二乗誤差）、ＭＰＥ（平均誤差率）、ＭＡＰＥ（平均絶対誤差率）、ＲＭＳＰＥ（平均平方二乗誤差率）、ＲＯＣ（Receiver Operating Characteristic）曲線及びＡＵＣ（Area Under the Curve）、Gini Norm、Kolmogorov-Smirnov又はPrecision/Recall等を用いて表してもよい。

また、取得部１２は、分散インスタンス数とハイパーパラメータとのある組み合わせに対する学習性能として、各情報処理装置２０から取得された複数の学習性能を用いて、１つの学習性能、例えば平均値、中央値、最大値、又は最小値を求めてもよい。

学習部１３は、任意のデータセットに対する分散インスタンス数とハイパーパラメータとの各組み合せと、各組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行う。この教師あり学習には所定の学習モデル１３ａが用いられる。例えば、学習モデル１３ａは、任意のデータセットを入力として、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能を予測するモデルである。

所定の学習モデル１３ａは、例えば、予測モデルであり、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも１つを含む。また、所定の学習モデル１３ａの具体例としては、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＤＮＮ（Deep Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、双方向ＬＳＴＭ、ＤＱＮ（Deep Q-Network）、ＶＡＥ（Variational AutoEncoder）、ＧＡＮｓ（Generative Adversarial Networks）、ｆｌｏｗ－ｂａｓｅｄ生成モデル等のいずれかでもよい。

また、学習モデル１３ａは、学習済みモデルを枝刈り（Pruning）、量子化（Quantization）、蒸留（Distillation）又は転移（Transfer）して得られるモデルを含む。なお、これらは一例に過ぎず、学習部１３は、これら以外の問題について、学習モデルの機械学習を行ってもよい。学習部１３は、学習するデータセットの特徴に応じて学習モデル１３ａを選択し、この学習モデルを用いて教師あり学習を行ってもよい。また、学習部１３において使用される損失関数は、学習モデル１３ａの出力とラベルデータとに関する２乗誤差関数であったり、クロスエントロピー関数であったりしてよい。学習部１３は、損失関数の値が小さくなるように、所定の条件が満たされるまで誤差逆伝搬法を用いてハイパーパラメータを調整しながら学習を繰り返す。

生成部１４は、学習部１３による教師あり学習によって予測モデルを生成する。予測モデルは、学習モデル１３ａが学習された結果として生成されるモデルを含む。例えば、予測モデルは、任意のデータセットを入力として、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能を予測するモデルである。

以上の処理により、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供することができる。例えば、様々なデータセットに対し、任意の分散インスタンス数又はハイパーパラメータを用いて分散学習を行っておくことで多数の教師データを生成することができる。また、サーバ１０は、分散学習の結果を取得して、これらを教師データとする教師あり学習を行うことで、任意のデータセットに対して分散インスタンス数又はハイパーパラメータの組み合わせごとに、学習性能を予測することが可能になる。また、

予測部１５は、所定のデータセットを予測モデルに入力し、所定の学習モデルの機械学習を実行した場合の学習性能を、分散インスタンス数又はハイパーパラメータのそれぞれの組み合わせについて予測する。例えば、予測部１５は、組み合せそれぞれに対して学習性能を予測し、学習性能が高い順に組み合わせを並べ替えてもよい。

以上の処理により、サーバ１０は、新たなデータセットに対して、分散インスタンス数又はハイパーパラメータのそれぞれの組み合わせに対する学習性能を予測することが可能になる。したがって、エンジニアが分散インスタンス数やハイパーパラメータを調整しなくてもよくなり、サーバ１０や各情報処理装置２０のコンピュータ資源を有効に活用することが可能になる。

また、取得部１２は、分散学習を指示した各情報処理装置２０から、学習結果として学習性能とともに学習時間を取得することを含んでもよい。学習時間について、例えば学習が開始されてから結果がでるまでの時間を情報処理装置２０が計測する。学習時間は、各情報処理装置２０から取得された各学習時間の平均値、最大値、中央値、又は最小値のいずれかが用いられてもよい。

学習部１３は、分散インスタンス数やハイパーパラメータのそれぞれの組み合わせと、それぞれの組み合わせに対応する組み合わせの学習性能及び学習時間とを含む学習データを用いて教師あり学習を行うことを含んでもよい。例えば、学習部１３は、所定のデータセットが学習モデル１３ａに入力され、分散インスタンス数やハイパーパラメータの組み合わせそれぞれについて、学習性能及び学習時間を予測するように教師あり学習を行う。

生成部１４は、学習時間を含む学習データを用いて教師あり学習が行われることにより、分散インスタンス数やハイパーパラメータの組み合わせそれぞれについて、学習性能及び学習時間を予測する予測モデルを生成してもよい。

以上の処理により、分散学習する場合の学習性能だけではなく、学習時間も予測することが可能になる。学習性能と学習時間とを考慮した分散インスタンス数やハイパーパラメータの選択が可能になる。例えば、学習時間又は学習性能は最適ではなくても、許容可能な学習時間又は学習性能に対応する分散インスタンス数やハイパーパラメータの組み合わせが選択可能になる。

予測部１５は、所定のデータセットを予測モデルに入力し、所定の学習モデルの機械学習を実行した場合の学習性能及び学習時間を、分散インスタンス数やハイパーパラメータの各組み合わせについて予測することを含んでもよい。

以上の処理により、サーバ１０は、新たなデータセットに対して、分散インスタンス数又はハイパーパラメータのそれぞれの組み合わせに対する学習性能及び学習時間を予測することが可能になる。したがって、エンジニアが分散インスタンス数やハイパーパラメータを調整しなくてもよくなり、サーバ１０や各情報処理装置２０のコンピュータ資源を有効に活用することが可能になる。

また、生成部１４は、予測部１５による予測された結果を用いて、学習性能を第１変数、学習時間を第２変数とし、第１変数及び第２変数と、インスタンス数及び／又はハイパーパラメータとを対応付ける関係情報（予測関係情報）を生成する。例えば、生成部１４は、縦軸を第１変数、横軸を第２変数とする場合に、それぞれの変数の交点に分散インスタンス数やハイパーパラメータを対応付けたマトリックスを生成してもよい。また、生成部１４は、各情報処理装置２０から取得された学習性能や学習時間に基づいて、第１変数及び第２変数と、インスタンス数及び／又はハイパーパラメータとを対応付ける関係情報（実測関係情報）を生成してもよい。

以上の処理により、第１変数又は第２変数が変更された場合に、対応する分散インスタンス数やハイパーパラメータを迅速に特定することが可能になる。また、第１変数と第２変数とは、適宜変更されてもよい。例えば、第１変数として学習性能、第２変数として分散インスタンス数を適用し、特定される情報はハイパーパラメータと学習時間との組み合わせでもよい。

また、取得部１２は、第１変数の第１値及び第２変数の第２値を取得してもよい。例えば、取得部１２は、ユーザから指定される第１変数の第１値及び第２変数の第２値を取得する。第１値又は第２値はユーザにより適宜指定される。

この場合、特定部１６は、生成部１４により生成された関係情報に基づいて、第１変数の第１値及び第２変数の第２値に対応するインスタンス数及び／又はハイパーパラメータを特定する。例えば、特定部１６は、関係情報を用いて、変更される第１変数の値、又は第２変数の値に対応するインスタンス数及び／又はハイパーパラメータを特定する。

表示制御部１７は、特定部１６により特定されたインスタンス数及び／又はハイパーパラメータを表示装置（表示部１０ｆ）に表示制御する。また、表示制御部１７は、第１変数及び第２変数を変更可能にしたマトリックスをＧＵＩ（Graphical User Interface）で表してもよい（例えば、後述する図６等）。

以上の処理により、ユーザにより指定された第１変数又は第２変数に応じて特定される分散インスタンス数やハイパーパラメータを、ユーザに対して可視化することが可能になる。ユーザは、第１変数又は第２変数を変更することで、所望の分散インスタンス数やハイパーパラメータを特定し、分散学習に適用することができる。

図４は、実施形態に係る情報処理装置２０の処理ブロックの一例を示す図である。情報処理装置２０は、取得部２１、学習部２２、出力部２３、及び記憶部２４を備える。情報処理装置２０は、汎用のコンピュータで構成されてもよい。

取得部２１は、他の情報処理装置（例えばサーバ１０）により、分散学習の指示とともに、所定の学習モデルに関する情報や所定のデータセットに関する情報を取得してもよい。所定の学習モデルに関する情報は、ハイパーパラメータのみでもよく、所定の学習モデル自体でもよい。所定のデータセットに関する情報は、データセット自体でもよく、所定のデータセットが格納された格納先を示す情報でもよい。

学習部２２は、所定の学習を行う学習モデル２２ａに学習対象の所定のデータセットを入力して学習を行う。学習部２２は、学習後の学習結果をサーバ１０にフィードバックするように制御する。学習結果は、例えば、調整後のハイパーパラメータや、学習性能などを含み、学習時間をさらに含んでもよい。学習部２２は、学習対象のデータセットの種類、及び／又は、解くべき問題に応じて、学習モデル２２ａを選択してもよい。

また、所定の学習モデル２２ａは、ニューラルネットワークを含む学習モデルであり、例えば、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも１つを含む。また、具体例としては、所定の学習モデル２２ａは、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＤＮＮ（Deep Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、双方向ＬＳＴＭ、ＤＱＮ（Deep Q-Network）、ＶＡＥ（Variational AutoEncoder）、ＧＡＮｓ（Generative Adversarial Networks）、ｆｌｏｗ－ｂａｓｅｄ生成モデル等のいずれかでもよい。

また、学習モデル２２ａは、学習済みモデルを枝刈り（Pruning）、量子化（Quantization）、蒸留（Distillation）又は転移（Transfer）して得られるモデルを含む。なお、これらは一例に過ぎず、学習部２２は、これら以外の問題について、学習モデルの機械学習を行ってもよい。また、学習部２２において使用される損失関数は、学習モデル２２ａの出力とラベルデータとに関する２乗誤差関数であったり、クロスエントロピー関数であったりしてよい。学習部２２は、損失関数の値が小さくなるように、所定の条件が満たされるまで誤差逆伝搬法を用いてハイパーパラメータを調整しながら学習を繰り返す。

出力部２３は、分散学習の学習結果に関する情報を他の情報処理装置に出力する。例えば、出力部２３は、学習部２２による学習結果に関する情報をサーバ１０に出力する。例えば、分散学習の学習結果に関する情報は、上述したように、学習性能、調整後のハイパーパラメータを含み、学習時間をさらに含んでもよい。

記憶部２４は、学習部２２に関するデータを記憶する。記憶部２４は、所定のデータセット２５ａや、サーバ１０から取得したデータ、学習途中のデータ、学習結果に関する情報などを記憶する。

これにより、情報処理装置２０は、他の情報処理装置（例えばサーバ１０）からの指示により、所定のデータセットに対して分散学習を実行し、学習結果をサーバ１０にフィードバックすることが可能になる。

また、新たなデータセットに対して、サーバ１０により予測されたハイパーパラメータや分散インスタンス数を利用して各情報処理装置２０に分散学習を実行させることが可能になる。これにより、各情報処理装置２０において、エンジニア等がハイパーパラメータや分散インスタンス数を調整しなくてもよくなり、各情報処理装置２０のハードウェア資源やソフトウェア資源を効率よく使用することができるようになる。

＜データ例＞
図５は、実施形態に係る関係情報の一例を示す図である。図５に示す例では、関係情報は、分散学習により得られた情報を集約した実測関係情報であり、各第１変数（例、Ｐ₁₁）及び各第２変数（例、Ｐ₂₁）に対応する分散インスタンス数（例、Ｎ₁）とハイパーパラメータ（Ｈ₁）とを含む。第１変数Ｐ_1nは、例えば学習性能であり、第２変数Ｐ_2nは学習時間であり、変数としてはいずれかの変数だけでもよい。ハイパーパラメータＨは、機械学習に用いられるパラメータの集合でもよく、例えば、weight decay、中間層のユニット数などであり、学習モデルに特有なパラメータを含んでもよい。

図５に示す関係情報について、サーバ１０は、所定の分散インスタンス数とハイパーパラメータの組み合わせで分散学習を行わせた情報処理装置２０から、学習性能（第１変数）と、学習時間（第２変数）とを取得する。サーバ１０は、取得された学習性能と学習時間に、所定の分散インスタンス数とハイパーパラメータとを対応付ける。この対応付けを、各情報処理装置２０から学習性能と学習時間とを取得するたびに行うことで、図５に示す関係情報を生成することが可能になる。また、関係情報は、予測部１５により予測された結果に基づいて、任意のデータセットに対する予測関係情報が生成されてもよい。

＜ユーザインタフェースの例＞
図６は、実施形態に係る関係情報の表示例を示す図である。図６に示す例では、予測関係情報に含まれる第１変数と第２変数とをスライドバーを用いて変更可能にする。ユーザが第１変数又は第２変数に対してスライドバーを用いて移動させることで、例えば、移動後の第１変数（Ｐ_1n）又は第２変数（Ｐ_2m）に対応する学習性能、ハイパーパラメータの組み合わせ（Ｎ_(P1n,P2m)，Ｈ_(P1n,P2m)）が、対応する点に関連付けて表示される。

また、ユーザは、第１変数及び第２変数の二次元のグラフ上に所定の点を指定することで、指定された点に対応する学習性能Ｎと、ハイパーパラメータＨとの組み合わせが表示されるようにしてもよい。なお、ハイパーパラメータＨに複数のパラメータが含まれる場合は、さらにハイパーパラメータＨを選択することで複数のパラメータが表示されるようにしてもよい。

これにより、サーバ１０は、第１変数と第２変数との組み合わせに対応する、学習性能と学習時間との組み合わせを表示可能になる。また、視覚的に対応関係をユーザに示しながら、これから分散学習が行われる任意のデータセットに対して適切な分散インスタンス数やハイパーパラメータを選択させるユーザインタフェースを提供することが可能になる。

＜処理例＞
図７は、実施形態に係るサーバ１０及び各情報処理装置２０の処理例を示すシーケンス図である。図７に示す例では、情報処理装置を「処理装置」と表記し、分散学習を実行する装置を表す。

ステップＳ１０２において、サーバ１０の分散制御部１１は、所定の分散インスタンス数の処理装置２０に、所定のハイパーパラメータを適用して学習を行わせるように制御する。例えば、分散制御部１１は、所定の分散インスタンス数の処理装置２０を選択し、選択された分散インスタンス数の処理装置２０に、設定された所定のハイパーパラメータとともに学習を行うよう指示する。

ステップＳ１０４において、分散学習を実行した各処理装置２０は、学習結果に関する情報をサーバ１０に送信する。学習結果に関する情報は、例えば学習性能、及び／又は、学習時間を含む。サーバ１０の取得部１２は、各処理装置２０から学習結果に関する情報を取得する。

ステップＳ１０６において、サーバ１０の学習部１３は、学習性能や学習時間を予測する学習モデル（予測モデル）１３ａと、所定のデータセットにおける分散インスタンス数やハイパーパラメータの各組み合わせに対し、各処理装置２０から取得された学習性能や学習時間を正解ラベルとする学習データとを用いて、教師あり学習を実行する。

ステップＳ１０８において、サーバ１０の生成部１４は、学習部１３の学習により生成されるモデルを予測モデルとして生成する。例えば、予測モデルは、任意のデータセットを入力として、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能又は学習時間を予測するモデルである。

ステップＳ１１０において、サーバ１０の予測部１５は、新たな任意のデータセットを予測モデルに入力し、分散インスタンス数及びハイパーパラメータの組み合わせごとに、学習性能及び／又は学習時間を予測する。

ステップＳ１１２において、サーバ１０の生成部１４は、予測部１５の予測結果に基づいて、学習性能を第１変数、学習時間を第２変数とし、第１変数及び第２変数と、インスタンス数及び／又はハイパーパラメータとを対応付ける関係情報を生成する。

以上の処理により、サーバ１０は、分散学習を行わせた各処理装置２０から学習結果を用いて、所定のデータセットに対する分散インスタンス数及びハイパーパラメータの組合せごとに、学習性能及び／又は学習時間を予測する予測モデルを生成することができる。これにより、データセットごとに、分散インスタンス数やハイパーパラメータを調整しなくてもよくなり、効率よく分散学習を行わせることができるようになる。

また、サーバ１０は、分散学習を行わせる学習モデルごとに、分散インスタンス数やハイパーパラメータの組み合わせを適宜変更して分散学習を行わせ、学習結果を取得することで、学習モデルに応じた関係情報を構築することも可能である。これにより、サーバ１０は、所定の学習モデルに対応する予測モデルを用いて、所定のデータセットに対する適切な分散インスタンス数やハイパーパラメータを特定することが可能になる。

次に、関係情報の利用例について説明する。図８は、実施形態に係るサーバ１０の関係情報の利用に関する処理例を示すフローチャートである。図８に示す例では、図６に示すように関係情報をグラフ化して画面に表示し、ユーザ操作に応じた分散インスタンス数やハイパーパラメータを表示するようにする。

ステップＳ２０２において、サーバ１０の取得部１２は、入力部１０ｅを介してユーザ操作を受け付け、第１変数の第１値を取得する。第１値は、ユーザ操作（例えばスライドバーの移動）に応じて変更される値である。

ステップＳ２０４において、サーバ１０の取得部１２は、入力部１０ｅを介してユーザ操作を受け付け、第２変数の第２値を取得する。第２値は、ユーザ操作（例えばスライドバーの移動）に応じて変更される値である。

ステップＳ２０６において、特定部１６は、生成部１４により生成された関係情報（例えば予測関係情報）に基づいて、第１変数の第１値及び第２変数の第２値に対応するインスタンス数及び／又はハイパーパラメータを特定する。例えば、特定部１６は、関係情報を用いて、変更される第１変数の値、又は第２変数の値に対応するインスタンス数及び／又はハイパーパラメータを特定する。

ステップＳ２０８において、表示制御部１７は、特定部１６により特定されたインスタンス数及び／又はハイパーパラメータを表示装置（表示部１０ｆ）に出力する。また、表示制御部１７は、第１変数及び第２変数を変更可能にしたマトリックスをＧＵＩで表してもよい。

以上の処理により、ユーザは、所定のデータセットと所定の学習モデルとを用いて分散学習を行う際に、分散インスタンス数とハイパーパラメータとの組み合わせごとに、学習性能や学習時間を把握することが可能になる。また、ユーザが学習性能や学習時間のパラメータ値を変更することで、変更後のパラメータ値に対応する分散インスタンス数やハイパーパラメータを特定することが可能になる。

以上、実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

上記実施形態では、情報処理装置１０の学習部２２は、他の装置に実装されてもよく、この場合、情報処理装置１０は、予測モデルを生成するための学習処理を他の装置に指示してもよい。

１０、２０…情報処理装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…分散制御部、１２…取得部、１３…学習部、１３ａ…学習モデル、１４…生成部、１５…予測部、１６…特定部、１７…表示制御部、１８…記憶部、２１…取得部、２２…学習部、２２ａ…学習モデル、２３…出力部、２４…記憶部

以上の処理により、所定のデータセットに対して適切な分散インスタンス数又はハイパーパラメータを特定可能な新たな仕組みを提供することができる。例えば、様々なデータセットに対し、任意の分散インスタンス数又はハイパーパラメータを用いて分散学習を行っておくことで多数の教師データを生成することができる。また、サーバ１０は、分散学習の結果を取得して、これらを教師データとする教師あり学習を行うことで、任意のデータセットに対して分散インスタンス数又はハイパーパラメータの組み合わせごとに、学習性能を予測することが可能になる。

Claims

所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置により実行される情報処理方法であって、
前記プロセッサは、
１又は複数のデータセットに対して、並列して学習されるインスタンス数及び／又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、
前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、
前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、
前記教師あり学習により、インスタンス数及び／又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、
を実行する、情報処理方法。
前記プロセッサは、
所定のデータセットを前記予測モデルに入力し、前記所定の学習モデルの機械学習を実行した場合の学習性能を、前記組み合わせごとに予測することを実行する、請求項１に記載の情報処理方法。
前記取得することは、
前記学習性能とともに学習時間を取得すること、
前記教師あり学習を行うことは、
前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能及び学習時間とを含む学習データを用いて教師あり学習を行うことを含み、
前記予測モデルを生成することは、
前記教師あり学習により、インスタンス数及び／又はハイパーパラメータの組み合わせごとに、学習性能及び学習時間を予測する予測モデルを生成することを含む、請求項１に記載の情報処理方法。
前記プロセッサは、
所定のデータセットを前記予測モデルに入力し、前記所定の学習モデルの機械学習を実行した場合の学習性能及び学習時間を、前記それぞれの組み合わせについて予測することを含む、請求項３に記載の情報処理方法。
前記プロセッサは、
前記学習性能を第１変数、前記学習時間を第２変数とし、前記第１変数及び前記第２変数と、前記インスタンス数及び／又は前記ハイパーパラメータとを対応付ける関係情報を生成すること、
を実行する請求項３又は４に記載の情報処理方法。
前記プロセッサは、
前記第１変数の第１値及び前記第２変数の第２値を取得すること、
前記関係情報に基づいて、前記第１値及び前記第２値に対応するインスタンス数及び／又はハイパーパラメータを特定すること、
を実行する請求項５に記載の情報処理方法。
前記プロセッサは、
特定された前記インスタンス数及び／又は前記ハイパーパラメータを表示装置に表示制御することを実行する請求項６に記載の情報処理方法。
記憶装置とプロセッサとを有する情報処理装置であって、
前記記憶装置は、
所定の学習モデルを記憶し、
前記プロセッサは、
１又は複数のデータセットに対して、並列して学習されるインスタンス数及び／又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、
前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、
前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、
前記教師あり学習により、インスタンス数及び／又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、
を実行する、情報処理装置。
所定の学習モデルを記憶する記憶装置とプロセッサとを有する情報処理装置の前記プロセッサに、
１又は複数のデータセットに対して、並列して学習されるインスタンス数及び／又はハイパーパラメータが任意に変更されたそれぞれの組み合わせで、前記所定の学習モデルを用いて他の各情報処理装置に機械学習を行わせること、
前記各情報処理装置から、前記それぞれの組み合わせに対応する学習性能を取得すること、
前記それぞれの組み合わせと、前記それぞれの組み合わせに対応する学習性能とを含む学習データを用いて教師あり学習を行うこと、
前記教師あり学習により、インスタンス数及び／又はハイパーパラメータの組み合わせごとに、学習性能を予測する予測モデルを生成すること、
を実行させる、プログラム。