JP7360595B2

JP7360595B2 - 情報処理装置

Info

Publication number: JP7360595B2
Application number: JP2019130732A
Authority: JP
Inventors: 匡史堤
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-10-13
Anticipated expiration: 2039-07-12
Also published as: JP2021015526A; US20210012195A1

Description

本発明は、情報処理装置に関するものである。

ある学習システムは、機械学習によって得られた学習結果と、機械学習のハイパーパラメーターとの関係を示す推定関数を推定し、推定関数に基づいて、ハイパーパラメーターの値域を限定して、ハイパーパラメーターの調整工程を短縮している（例えば特許文献１参照）。

特開２０１８－１５９９９２号公報

しかしながら、上述のシステムでは、推定関数の推定に時間がかかるとともに、限定後のハイパーパラメーターの値域における各ハイパーパラメーターの値のセットについての機械学習および学習結果の評価にかかる時間は変わらない。

本発明は、上記の問題に鑑みてなされたものであり、ハイパーパラメーターの調整を短時間で行う情報処理装置を得ることを目的とする。

本発明に係る情報処理装置は、所定のニューラルネットワークの機械学習を実行する機械学習処理部と、ハイパーパラメーターに従って、前記機械学習処理部に前記機械学習を実行させる学習制御部とを備える。そして、前記学習制御部は、前段学習と、前記前段学習の後の後段学習とを実行し、（ａ）前記前段学習において、前記ハイパーパラメーターの単一の値セットで、所定第１条件が成立するまで、前記機械学習処理部に前記機械学習を実行させ、前記所定第１条件が成立したときの前記ニューラルネットワークのパラメーターの値を保存し、（ｂ）前記後段学習において、保存した前記ニューラルネットワークのパラメーターの値を前記ニューラルネットワークのパラメーター初期値として、所定第２条件が成立するまで、前記ハイパーパラメーターの値セットを変更して、前記機械学習処理部に前記機械学習を実行させる。

本発明によれば、ハイパーパラメーターの調整を短時間で行う情報処理装置が得られる。

本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。

図１は、本発明の実施の形態に係る情報処理装置の構成を示すブロック図である。図２は、図１に示す情報処理装置の動作について説明するフローチャートである。

以下、図に基づいて本発明の実施の形態を説明する。

実施の形態１．

図１は、本発明の実施の形態に係る情報処理装置の構成を示すブロック図である。図１に示す情報処理装置は、記憶装置１、通信装置２、および演算処理装置３を備える。

記憶装置１は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。

通信装置２は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。

演算処理装置３は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などを備えるコンピューターであって、プログラムを、ＲＯＭ、記憶装置１などからＲＡＭにロードしＣＰＵで実行することで、各種処理部として動作する。ここでは、演算処理装置３は、学習制御部２１、および機械学習処理部２２として動作する。

学習制御部２１は、ハイパーパラメーターに従って、機械学習処理部２２に機械学習を実行させる。

ハイパーパラメーターは、機械学習の対象となるニューラルネットワーク自体のパラメーターではなく、機械学習処理におけるパラメーターであり、例えば、学習率、ドロップアウト率、データオーグメンテーション変動幅、バッチサイズ、エポック数などである。

機械学習処理部２２は、所定のニューラルネットワークの機械学習を実行する。

なお、ここで、ニューラルネットワークは、隠れ層が２つ以上のディープニューラルネットワークである。つまり、ディープラーニングで機械学習されるニューラルネットワークである。また、このディープニューラルネットワークの構造および機械学習については、既知のものが使用できる。

学習制御部２１は、機械学習処理部２２を使用して、前段学習と、前段学習の後の後段学習とを実行する。前段学習では、学習制御部２１は、ハイパーパラメーターの調整をせず、特定の値セットのハイパーパラメーターで、機械学習処理部２２に、機械学習を進行させ、その後、後段学習では、学習制御部２１は、前段学習で得られたニューラルネットワークのパラメーター（重み係数やバイアス）の値を、ニューラルネットワークのパラメーターの初期値として、複数の値セットのハイパーパラメーターのそれぞれで、機械学習処理部２２に、機械学習を進行させる。

具体的には、学習制御部２１は、（ａ）前段学習において、ハイパーパラメーターの単一の値セット（例えばユーザーにより指定されたデフォルトの値セット）で、所定第１条件が成立するまで、機械学習処理部に機械学習を実行させ、所定第１条件が成立したときのニューラルネットワークのパラメーターの値をＲＡＭや記憶装置１に保存し、（ｂ）後段学習において、保存したニューラルネットワークのパラメーターの値をニューラルネットワークのパラメーター初期値として、所定第２条件が成立するまで、ハイパーパラメーターの値セットを変更して、機械学習処理部に機械学習を実行させる。

ここで、第１条件および第２条件は、学習誤差、エポック数などに基づき設定される。

例えば、第１条件は、機械学習の学習誤差が所定第１閾値より低くなることとされ、第２条件は、機械学習の学習誤差が所定第２閾値より低くなることとされ、その際の第２閾値は、第１閾値より低く設定される。

ここで、学習誤差は、機械学習のトレーニングデータとは別に準備されている評価データ（入力データと出力データとの対）に基づいて計算される。具体的には、対象のニューラルネットワークに評価データの入力データを入力し、対象のニューラルネットワークの出力データと、評価データの出力データとの差分に基づいて、学習誤差が導出される。

後段学習では、学習制御部２１は、ハイパーパラメーターの値セットにおける各値を所定の値域内で変更する。また、後段学習では、学習制御部２１は、ハイパーパラメーターの値セットを、ランダムサーチ、グリッドサーチ、ベイズ最適化などといった既知の方法に従って変更していく。

次に、上記装置の動作について説明する。図２は、図１に示す情報処理装置の動作について説明するフローチャートである。

まず、学習制御部２１は、機械学習の対象のニューラルネットワークの構造（中間層の数、各層のニューロン数など）を設定する（ステップＳ１）。なお、入力層および出力層のニューロン数は、トレーニングデータの入力データおよび出力データに基づき特定され、その他の構造については、ここでは、例えばユーザーにより予め指定される。

次に、学習制御部２１は、機械学習処理部２２に、そのニューラルネットワークの機械学習処理（前段学習）を実行させる（ステップＳ２）。このとき、機械学習処理部２２は、記憶装置１などに予め記憶されたトレーニングデータを使用して、そのニューラルネットワークの機械学習処理を実行する。

機械学習処理部２２が所定回数の機械学習処理を実行すると、学習制御部２１は、前段学習を終了するか否かを判定する（ステップＳ３）。前段学習を終了しないとを判定した場合、学習制御部２１は、ステップＳ２の前段学習を継続する。前段学習を終了するとを判定した場合、学習制御部２１は、前段学習を終了し、この時点でのニューラルネットワークのパラメーター（重み係数など）を保存する（ステップＳ４）。

例えば、ステップＳ３では、機械学習処理部２２は、評価データに基づいて、現時点のニューラルネットワークの学習誤差を導出し、その学習誤差が所定閾値未満であれば、前段学習を終了する。

次に、学習制御部２１は、後段学習を実行する。まず、学習制御部２１は、所定の方式（ランダムサーチ、ベイズ最適化など）に従って、ハイパーパラメーターの値セットを変更し（ステップＳ５）、変更後のハイパーパラメーターで、機械学習処理部２２に、所定エポック数の機械学習処理を実行させる（ステップＳ６，Ｓ７）。

所定エポック数の機械学習処理が終了すると、学習制御部２１は、後段学習を終了するか否か（つまり、適切なハイパーパラメーターでの機械学習が完了したか否か）を判定する（ステップＳ８）。後段学習を終了しないとを判定した場合、学習制御部２１は、（必要に応じて、現時点のハイパーパラメーターの値セットとニューラルネットワークのパラメーターの値とを互いに関連付けて学習結果として記憶装置１などに保存し）ステップＳ４で保存したニューラルネットワークのパラメーターの値を読み出して、ニューラルネットワークのパラメーター初期値としてセットし（ステップＳ９）、ハイパーパラメーターの値セットを変更し（ステップＳ５）、ステップＳ６以降の処理を実行する。

一方、ステップＳ８において後段学習を終了すると判定した場合、学習制御部２１は、この時点でのニューラルネットワークのパラメーター（重み係数など）の値およびハイパーパラメーターの値セットを学習結果として保存し、機械学習を終了する。

以上のように、上記実施の形態１によれば、学習制御部２１は、前段学習と、前段学習の後の後段学習とを実行する。そして、前段学習において、学習制御部２１は、ハイパーパラメーターの単一の値セットで、所定第１条件が成立するまで、機械学習処理部２２に機械学習を実行させ、所定第１条件が成立したときのニューラルネットワークのパラメーターの値を保存する。次に、後段学習において、学習制御部２１は、保存したニューラルネットワークのパラメーターの値をニューラルネットワークのパラメーター初期値として、所定第２条件が成立するまで、ハイパーパラメーターの値セットを変更して、機械学習処理部２２に機械学習を実行させる。

これにより、前段学習で途中まで機械学習を進行させてからハイパーパラメーターの調整を行うため、ハイパーパラメーターの調整が比較的短時間で済む。

実施の形態２．

実施の形態２では、学習制御部２１は、上述のステップＳ１において、（ａ）上述の各ハイパーパラメーターの値域において、ニューラルネットワークの構造（中間層の数、各層のニューロン数など）に最も複雑さが要求される値を、ハイパーパラメーターの値セットにおける各値に設定して、所定条件が成立するまで、ニューラルネットワークの構造を変更して、機械学習処理部２２に機械学習を実行させ、（ｂ）所定条件が成立したときのニューラルネットワークの構造で、上述の前段学習および後段学習を実行する。なお、ここでは、ハイパーパラメーターには、上述の前段処理と同様に、所定の単一の値セットが適用される。

例えば、学習制御部２１は、所定初期値からニューラルネットワークの中間層の数、各層のニューロン数などを増加させ、各構造でニューラルネットワークの機械学習を実行させ、学習誤差が所定閾値未満になったときの構造を、機械学習対象のニューラルネットワークの構造とし、上述の前段学習および後段学習を実行する。

例えば、データオーグメンテーションの画像回転範囲幅の値域が０～１５度である場合、最大値である１５度がニューラルネットワークの構造に最も複雑さが要求される値であるため、ここでは、データオーグメンテーションの画像回転範囲幅を１５度に固定して、機械学習すべきニューラルネットワークの構造が上述のようにして特定される。同様に、例えば、ドロップ率の値域が０～６０％である場合、最大値である６０％がニューラルネットワークの構造に最も複雑さが要求される値であるため、ここでは、ドロップ率を６０％に固定して、機械学習すべきニューラルネットワークの構造が上述のようにして特定される。

なお、実施の形態２に係る情報処理装置のその他の構成および動作については実施の形態１と同様であるので、その説明を省略する。

以上のように、上記実施の形態２によれば、前段学習および後段学習の前に、機械学習の対象となるニューラルネットワークの適切な構造が特定されるため、前段学習や後段学習において、学習誤差が適切に減少させることができる。

なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。

例えば、上記実施の形態において、後段学習の終了条件（ステップＳ８）は、ベイズ最適化の場合には、学習誤差が収束したか否か（つまり、前回の学習誤差と今回の学習誤差との差が所定値未満となったか否か）としてもよい。

また、上記実施の形態において、後段学習の終了条件（ステップＳ８）は、ハイパーパラメーターの値セットの変更回数としてもよい。その場合、ハイパーパラメーターの値セットのうち、学習誤差が最小であった学習結果（ニューラルネットワークのパラメーター値）が、機械学習対象のニューラルネットワークのパラメーター値として選択される。

さらに、上記実施の形態１において、前段学習または後段学習において、所定回数の機械学習処理を行っても学習誤差が閾値より低くならない場合、機械学習処理を中止し、ニューラルネットワークの構造を変更して（つまり、中間層の数や中間層のニューロン数を増加させ、再度、前段学習および後段学習を実行するようにしてもよい。

本発明は、例えば、ニューラルネットワークの機械学習に適用可能である。

３演算処理装置
２１学習制御部
２２機械学習処理部

Claims

所定のニューラルネットワークの機械学習を実行する機械学習処理部と、
ハイパーパラメーターに従って、前記機械学習処理部に前記機械学習を実行させる学習制御部とを備え、
前記学習制御部は、前段学習と、前記前段学習の後の後段学習とを実行し、（ａ）前記前段学習において、前記ハイパーパラメーターの単一の値セットで、所定第１条件が成立するまで、前記機械学習処理部に前記機械学習を実行させ、前記所定第１条件が成立したときの前記ニューラルネットワークのパラメーターの値を保存し、（ｂ）前記後段学習において、保存した前記ニューラルネットワークのパラメーターの値を前記ニューラルネットワークのパラメーター初期値として、所定第２条件が成立するまで、前記ハイパーパラメーターの値セットを変更して、前記機械学習処理部に前記機械学習を実行させること、
を特徴とする情報処理装置。
前記第１条件は、前記機械学習の学習誤差が所定第１閾値より低くなることであり、
前記第２条件は、前記機械学習の学習誤差が所定第２閾値より低くなることであり、
前記第２閾値は、前記第１閾値より低いこと、
を特徴とする請求項１記載の情報処理装置。
前記学習制御部は、前記ハイパーパラメーターの値セットにおける各値を所定の値域内で変更し、
前記学習制御部は、（ａ）前記値域において、前記ニューラルネットワークの構造に最も複雑さが要求される値を、前記ハイパーパラメーターの値セットにおける各値に設定して、所定第３条件が成立するまで、前記ニューラルネットワークの構造を変更して、前記機械学習処理部に前記機械学習を実行させ、（ｂ）前記所定第３条件が成立したときの前記ニューラルネットワークの構造で、前記前段学習および前記後段学習を実行すること、
を特徴とする請求項１記載の情報処理装置。