JP2023046868A

JP2023046868A - 機械学習プログラム、機械学習方法および情報処理装置

Info

Publication number: JP2023046868A
Application number: JP2021155700A
Authority: JP
Inventors: 靖原; Yasushi Hara; 明彦笠置; Akihiko Kasaoki; 雄高甲斐; Taketaka Kai; 匠檀上; Takumi Danjo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-04-05
Also published as: US20230095268A1; CN115860058A; EP4156037A1

Abstract

【課題】学習収束までの時間短縮と精度向上の両立を実現することを課題とする。【解決手段】情報処理装置は、機械学習モデルの機械学習時に、機械学習モデルが有する複数の層のうち、機械学習の停止対象に選択された層である停止対象層の学習率を算出する。情報処理装置は、停止対象層の学習率に応じて、機械学習を停止させるまでの時間である制御時間を設定する。情報処理装置は、停止対象層について、制御時間に到達するまで、学習率を制御して機械学習を実行する。【選択図】図１２

Description

本発明は、機械学習プログラム、機械学習方法および情報処理装置に関する。

機械学習モデルの機械学習を高速化するために、ＧＰＵ（Graphics Processing Unit）の利用が有効であり、さらに複数のＧＰＵで処理を分散させることも有効である。これまでに、情報処理装置であるノード内に複数のＧＰＵを実装し、ノード内で並列に機械学習処理を実行することで高速化が行われてきたが、ＧＰＵ間での勾配情報の集約処理や反映処理に時間を要していた。

このような機械学習モデルの機械学習では、新規学習部分は学習するたびに頻繁に更新が必要なために、更新頻度を決定する学習率（Learning Rate：LR）を高めに設定する必要がある。一方で、すでに機械学習が完了している既存学習部分は入力側に近いほど学習率は低く、極端な場合は学習率が０となる場合も多い。学習率が０の部分は、機械学習処理を行わなくてもよいのにもかかわらず、新規学習部分と同じ頻度で勾配情報の集約処理や反映処理や、重みの計算処理を行っており、無駄な処理が多い。

このようなことから、近年では、機械学習を必要としていない層を見極め、勾配情報（Δｗ）の計算や集約処理（Allreduce処理）を行わずに、スキップさせるGradient Skip技術が利用されている。

米国特許第１０５２８８６７号明細書米国特許出願公開第２０２０／００９００３１号明細書米国特許出願公開第２０１９／０１１４５３７号明細書

しかしながら、上記技術では、機械学習をスキップさせることで高速化が図れるものの、スキップさせる層やタイミングによっては、機械学習の精度が劣化し、目標精度に到達せずに、機械学習が終了することがある。

一つの側面では、学習収束までの時間短縮と精度向上の両立を実現することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。

第１の案では、機械学習プログラムは、コンピュータに、機械学習モデルの機械学習時に、前記機械学習モデルが有する複数の層のうち、機械学習の停止対象に選択された層である停止対象層の学習率を算出し、前記停止対象層の学習率に応じて、前記機械学習を停止させるまでの時間である制御時間を設定し、前記停止対象層について、前記制御時間に到達するまで、前記学習率を制御して前記機械学習を実行する、処理を実行させることを特徴とする。

一実施形態によれば、学習収束までの時間短縮と精度向上の両立を実現することができる。

図１は、実施例１にかかる情報処理装置の分散学習を説明する図である。図２は、機械学習の参考技術を説明する図である。図３は、機械学習の学習スキップの処理例を説明する図である。図４は、学習率の制動距離を用いた学習スキップを説明する図である。図５は、学習率の制動距離を用いた学習スキップの改善点を説明する図である。図６は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図７は、分散処理部の詳細を説明する図である。図８は、スキップ候補の検出を説明する図である。図９は、減衰率の低下と制動距離との関係を説明する図である。図１０は、学習スキップまでの学習率の制御を説明する図である。図１１は、ＢＤ期間の設定例を説明する図である。図１２は、ＬＲを用いたＢＤ期間の可変例を説明する図である。図１３は、実施例１にかかる機械学習処理の流れを示すフローチャートである。図１４は、効果を説明する図である。図１５は、ハードウェア構成例を説明する図である。

以下に、本願の開示する機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
実施例１にかかる情報処理装置１０は、機械学習処理の高速化を実現するために、複数のＧＰＵを用いた分散処理により、機械学習モデルの生成を実行する。図１は、実施例１にかかる情報処理装置１０の分散学習を説明する図である。図１に示すように、情報処理装置１０は、ＣＰＵ（Central Processing Unit）と複数のＧＰＵとを有するコンピュータの一例である。ＣＰＵは、情報処理装置１０全体を司る制御を実行し、機械学習モデルの生成を統合的に管理する。各ＧＰＵは、ＣＰＵからの指示に応じて、機械学習モデルの機械学習を実行する。なお、分散処理の手法は、公知の手法を採用することができる。

近年では、各層（各レイヤー）の学習率を用いて機械学習を必要としていない層を見極め、勾配情報の計算や集約処理（Allreduce処理）を行わずに、学習を抑制する（スキップさせる）Gradient Skip技術が利用されている。

ここで、学習スキップ（以下では、単に「スキップ」と記載する場合がある）の参考技術について説明する。図２は、機械学習の参考技術を説明する図である。図２に示す参考技術は、深層学習（DL：Deep Learning）などにより機械学習モデルを生成する技術であり、ＤＬの誤差勾配から学習状況を取得して誤差勾配の算出をスキップすることで、学習時間を短縮する技術である。

具体的には、参考技術は、学習の進捗状況を示す学習率が低下した層を検出して、当該層に対する学習を省略することで、学習時間を短縮する。例えば、最新のイテレーション時の誤差勾配と直前のイテレーション時の誤差勾配との差分が閾値以上である各層については、次回のイテレーション時にも通常通りに学習が実行され、差分が未満である各層については次回のイテレーション時に学習のスキップが実行される。すなわち、学習率が低下した層については以後の誤差勾配の算出などの機械学習処理が抑制される。

ただし、参考技術では、完全に機械学習をスキップさせた場合の精度劣化の影響が未知な部分もある。すなわち、ＤＮＮ（Deep Neural Network）などの機械学習モデルにおいて、複数の層の誤差逆伝播（バックワード・プロパゲーション）処理を、学習率（Learning Rate：LR）等を基準に判断し、一気に停止させた場合に精度が落ちやすい。また、学習スキップさせるタイミング（エポック数、イテレーション数）が悪いと、精度が落ちて、最終精度が目標に到達しない場合がある。

そこで、近年では、誤差勾配の算出や誤差逆伝播の各処理を抑制する学習スキップ対象と判定された層について、いきなり学習スキップさせるのではなく、学習を停止させる層の学習率を段階的に小さくしていき、ある程度の学習処理を行ってから、学習スキップさせる処理が知られている。

ここで、学習スキップの一例を説明する。図３は、機械学習の学習スキップの処理例を説明する図である。図３に示すように、機械学習モデルの深層学習では、順伝播による機械学習（計算処理）と誤差逆伝播による重み等の更新処理とが実行される。ここで、誤差逆伝播による更新時に、学習がある程度進んだイテレーションから重み情報の更新を停止させていくが、その際に、停止させる層を入力側から停止させる。これは、出力側を停止させると、学習精度が目標精度に到達しないことがあるが、入力側は精度への影響が低いためである。

上述した学習スキップを用いた機械学習の最終的な到達精度は、学習を停止させるレイヤーがある程度学習率が小さくなってから止めた方が最終到達精度の低下が小さい傾向がある。このため、対象のレイヤーの学習を突然止めるのではなく、学習を止める（スキップする）命令を与えた際に学習率を下げてから停止させる学習率の制動距離（BD：BRAKING＿DISTANCE）の導入が進められている。すなわち、ボトムに近い層から順に停止させたレイヤーを身近な極所解に落としていく機械学習が利用されている。

ここで、ハイパーパラメータである学習率の制動距離（BD：BRAKING＿DISTANCE）を導入し、スキップ候補のブロックに属する各層に対して、段階的に学習を抑制する例を説明する。なお、ブロックとは、複数の層をまとめたものである。

図４は、学習率の制動距離を用いた学習スキップを説明する図である。図４に示すように、機械学習を行う情報処理装置は、入力側から順に、各層を、第１ブロック、第２ブロック、第３ブロック、第４ブロック、第５ブロックに分割する。そして、情報処理装置は、ウォームアップ終了後、学習率を制御していく。

そして、情報処理装置は、第１ブロックが学習スキップ対象と判定されると、イテレーションごとに学習率を通常学習よりも大幅に低下させた機械学習を実行させる。その後、情報処理装置は、第２ブロックが学習スキップ対象と判定されると、イテレーションごとに学習率を通常学習よりも大幅に低下させた機械学習を実行させる。このようにして、情報処理装置は、入力層に近いブロックからの順番で、学習スキップを実行する。

ところが、図４に示した学習率の制動距離（以下では、「ＢＤ期間」と記載することがある）を用いた学習スキップには、精度をより向上させるための改善点がある。図５は、学習率の制動距離を用いた学習スキップの改善点を説明する図である。図５に示すように、ＢＤを適用する層（もしくはブロック）に対して、一律のイテレーション間隔でＢＤが実施されている。例えば、図５の（１）に示す学習率（ＬＲ）が高い層のＢＤを行う場合も、ＢＤ期間として「１０エポック＝７７００イテレーション」が設定され、図５の（２）に示す学習率がある程度低下した層のＢＤを行う場合も、ＢＤ期間として「１０エポック＝７７００イテレーション」が設定され、図５の（３）に示す学習率が低い層のＢＤを行う場合も、ＢＤ期間として「１０エポック＝７７００イテレーション」が設定される。

つまり、ＢＤにより学習スキップの制御が行われる直前のＬＲが低いほど、学習停止（ＬＲ＝０）までの落差が小さいために、早めに十分な値に到達するが、そのまま学習を継続してしまう。この結果、本来早めに、学習済みの層を停止することで高速化を図れるところを、学習が継続してしまい、必要以上に時間がかかっていることがある。

このようなことから、本実施例では、ＢＤの開始タイミングに応じて、最適なＢＤの適用幅を動的に決定することで、機械学習の高速化を実現する。

具体的には、情報処理装置１０は、機械学習モデルの機械学習時に、機械学習モデルが有する複数の層のうち、機械学習の停止対象と選択された層の誤差勾配を取得する。情報処理装置１０は、停止対象と選択された層の誤差勾配に基づき、機械学習を停止させるまでの時間を設定する。情報処理装置１０は、停止対象に選択された層について、停止させる時間に到達するまで、学習率を制御して機械学習を実行する。

すなわち、情報処理装置１０は、開始時のＬＲの大きさが大きければ、ＢＤの間隔を長く設定し、開始時のＬＲの大きさが小さければＢＤの間隔を短く設定することで、学習収束までの時間短縮と精度向上の両立を実現する。

［機能構成］
図６は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図６に示すように、情報処理装置１０は、通信部１１、記憶部１２、統合処理部２０、複数の分散処理部３０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、管理者端末との間で、各種データや各種指示などを送受信する。

記憶部１２は、各種データや各種プログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部１２は、訓練データＤＢ１３と機械学習モデル１４を記憶する。

訓練データＤＢ１３は、機械学習モデル１４の機械学習に利用される訓練データを記憶するデータセットの一例ある。例えば、訓練データＤＢ１３に記憶される各訓練データは、画像データと教師ラベルとから構成される。なお、訓練データのデータセットは、任意の単位でサブセット（バッチサイズ）に分割することができる。

機械学習モデル１４は、ＤＬなどの機械学習により生成されるモデルであり、複数の層から構成される多層ニューラルネットワークを用いたモデルの一例ある。例えば、機械学習モデル１４は、画像データが入力された場合に、写っている動物の分類を実行する。なお、機械学習モデル１４には、ＤＮＮやＣＮＮ（Convolutional Neural Network）などを採用することができる。

統合処理部２０は、情報処理装置１０全体を司る処理部であり、例えばＣＰＵにより実現される。例えば、統合処理部２０は、機械学習の分散処理、機械学習の開始や終了などを各分散処理部３０に指示し、機械学習に関する全体的な制御を実行する。

各分散処理部３０は、機械学習の分散処理を実行する処理部であり、例えばＧＰＵにより実現される。例えば、各分散処理部３０は、統合処理部２０からの指示により、訓練データＤＢ１３に記憶される各訓練データを用いた機械学習により、機械学習モデル１４の生成を実行する。

［分散処理部の詳細］
次に、各分散処理部３０の詳細について説明する。なお、各分散処理部３０は、同様の構成を有する。図７は、分散処理部３０の詳細を説明する図である。図７に示すように、分散処理部３０は、順伝播処理部３１、誤差逆伝播処理部３２、候補抽出部３５、スキップ制御部３６を有する。

順伝播処理部３１は、機械学習モデル１４の各層に対する順伝播処理を実行する処理部である。具体的には、順伝播処理部３１は、いわゆるForward Propagationを実行するので、詳細な説明は省略する。簡単に説明すると、例えば、順伝播処理部３１は、機械学習モデル１４の先頭の層（入力層）に訓練データである画像データを入力し、入力層から機械学習モデル１４の末尾の層（出力層）に向かって連続的に数値計算が行われた結果である予測結果（分類結果）を、出力層から取得する。そして、順伝播処理部３１は、二乗誤差などを用いて、予測結果と教師レベルとの誤差を算出して誤差関数を算出して、誤差逆伝播処理部３２に出力する。

誤差逆伝播処理部３２は、誤差勾配算出部３３と通信制御部３４とを有し、順伝播処理部３１から入力される誤差関数を用いて、誤差逆伝播法により機械学習モデル１４の各パラメータの誤差を計算し、パラメータ更新を実行する処理部である。すなわち、誤差逆伝播処理部３２は、いわゆるBackward propagationを実行する。

例えば、誤差逆伝播処理部３２は、機械学習モデル１４の出力層から入力層に向かう順番（逆順）に、ニューラルネットワークの各ノード間のエッジの重みの誤差勾配を算出する。誤差勾配は、誤差を重みの関数とみなした場合に、誤差を重みで偏微分した値に相当し、誤エッジの重みを微少量だけ変化させたときの誤差の変化量を表す。そして、誤差逆伝播処理部３２は、誤差勾配を用いて、誤差が小さくなるように各エッジの重みなどの各パラメータの更新を実行する。

誤差勾配算出部３３は、機械学習モデル１４に含まれる複数の層それぞれについて、機械学習モデル１４の各パラメータに対する誤差の勾配を示す誤差勾配を算出する処理部である。例えば、誤差勾配算出部３３は、イテレーションごとに、機械学習モデル１４が有する各層に対して誤差勾配を算出して、誤差勾配に関する誤差勾配情報を候補抽出部３５に出力する。

ここで、誤差勾配算出時に、誤差勾配算出部３３は、学習を抑制すると決定された層（学習スキップ層）については、誤差勾配の算出を抑制する。また、後述する各ブロックで制御する場合、誤差勾配算出部３３は、各ブロックにおける入力層から最も遠い位置にある最後の層のみを誤差勾配の算出対象とすることもできる。なお、誤差勾配の算出手法は、公知の様々な手法を採用することができる。

通信制御部３４は、ＧＰＵ間のAllReduce通信を実行する処理部である。例えば、通信制御部３４は、各ＧＰＵ間で誤差勾配を送受信することで、複数のＧＰＵで算出された誤差勾配をエッジの重み毎に合計し、複数のＧＰＵの間で誤差勾配が集計される。このように集計された誤差勾配に関する情報を用いて、誤差逆伝播処理部３２による機械学習モデル１４の各種パラメータの更新が実行される。

また、通信制御部３４は、後述するスキップ制御部３６により制御指示にしたがって、スキップ対象の層への通信を停止する。また、通信制御部３４は、機械学習モデル１４の各層の中から、学習を止めずに誤差勾配計算および通信（Allreduce）を継続する層と、学習を止める層を特定し、通信を制御する。

候補抽出部３５は、誤差勾配算出部３３により算出された誤差情報を用いて、学習を停止させるスキップ対象の候補となる層を抽出する処理部である。具体的には、候補抽出部３５は、各層のうち、イテレーション間の誤差勾配の変位が小さい層を、スキップ候補として抽出する。

図８は、スキップ候補の検出を説明する図である。図８では、ある層について説明するが、図８に示される処理は各層について実行される。図８に示すように、候補抽出部３５は、各エポック内のイテレーションが完了するたびに、スキップ候補の抽出を実行する。

例えば、候補抽出部３５は、エポック１のイテレーション１が終了したタイミングで誤差勾配＃１を算出して保持する。その後、エポック１のイテレーション２が終了すると、候補抽出部３５は、誤差勾配＃２を算出して保持するとともに、誤差勾配＃１と誤差勾配＃２の差分である差分＃２（例えば絶対値の差）を算出し、この差分＃２と閾値とを比較する。

ここで、候補抽出部３５は、差分＃２が閾値未満である場合、十分に学習が進んだ層と判定し、当該層を特定する情報をスキップ候補としてスキップ制御部３６に通知する。一方、候補抽出部３５は、差分＃２が閾値以上である場合、学習が不十分と判定し、当該層をスキップ候補とはせずに、通常学習を維持する。

また、候補抽出部３５は、機械学習モデル１４が有する複数の層をブロックに分割し、ブロックごとにスキップ候補か否かを判定することもできる。例えば、候補抽出部３５は、機械学習モデル１４の入力層から出力層までの各層を、入力層からの順番で所定数に区切って複数のブロックを生成する。例えば、候補抽出部３５は、第１ブロック、第２ブロック、第３ブロック、第４ブロック、第５ブロックを生成する。このとき、候補抽出部３５は、出力層、全結合層、全結合層から２つ前の層を、ブロック化の対象外とすることもできる。

この場合、候補抽出部３５は、各ブロックについて、ブロックに属する層の誤差勾配を算出し、その平均値を用いた上記閾値の比較により、該当ブロックがスキップ候補か否かを判定することもできる。別例としては、候補抽出部３５は、各ブロックについて、ブロックに属する層のうち最後の層（出力層に最も近い層）の誤差勾配を算出し、その誤差勾配を用いた上記閾値の比較により、該当ブロックがスキップ候補か否かを判定することもできる。

スキップ制御部３６は、候補抽出部３５によりスキップ候補と判定された層またはブロックに属する各層について、学習スキップさせるための学習率の制御を実行する処理部である。

具体的には、最終的な到達精度は、学習を抑制（停止）させる層（レイヤー）の学習率がある程度小さくなってから、学習を抑制（学習スキップ）させた方が最終到達精度の低下が小さい傾向がある。このため、スキップ制御部３６は、学習率の制動距離（BD：BRAKING＿DISTANCE）を導入し、スキップ候補の各層に対して、段階的に学習を抑制する。なお、ＢＤは、ハイパーパラメータである。

例えば、スキップ制御部３６は、スキップ候補の各層の学習を突然止めるのではなく、学習を止める命令を与えた際に、イテレーションに依存するＢＤを用いて学習率を下げてから抑制させる。より詳細には、スキップ制御部３６は、機械学習モデル１４の学習で使用するＬＲスケジューラがＰＯＷ２の場合、式（１）を用いて、ＰＯＷ２と同じように、ＢＤを減少させる。

図９は、減衰率の低下と制動距離との関係を説明する図である。図９に示すように、スキップ制御部３６は、ＬＲの制動距離であるＢＤを、式（１）に示す減衰率を乗算することで、設定したイテレーション数である７７００まで、イテレーションごとに徐々に小さくしていき、学習率を低下させていく。なお、式（１）におけるＢＤは、予め定める設定値であり、iteration（イテレーション）は算出時点のイテレーション数である。図９は、ＢＤ＝７７００とした例である。

ここで、スキップ候補と判定された各層について、上記減衰率を用いて学習スキップを実行する例について説明する。図１０は、学習スキップまでの学習率の制御を説明する図である。図１０に示すように、スキップ制御部３６は、ウォームアップ（３８５０イテレーション）が完了すると、ＬＲ＝５で機械学習を実行させる。そして、スキップ制御部３６は、イテレーションが７９８０のときにスキップ候補と判定されると、式（２）を用いて、そのイテレーション時のＬＲを計算し、計算されたＬＲを用いて機械学習を実行させる。このように、スキップ制御部３６は、イテレーションごとにＬＲを算出し、算出したＬＲを用いて機械学習を実行させる。

なお、式（２）における「ＬＲ」は、学習に使用される算出対象の学習率である。「ＥｎｄＬＲ」は、学習スキップさせると判定するときのＬＲであり、この「ＥｎｄＬＲ」になるまで、学習率の減衰（低下）が繰り返される。「ＢＤ開始時のＬＲ」は、初期設定時のＬＲである。「Iter.」は、算出時のイテレーション数であり、スキップ候補と判定されたあとは、イテレーションごとに「ＬＲ」が算出されるので、そのイテレーション数となる。「ＢＤ開始時のiter.」は、学習率の減衰を開始するときのイテレーション数である。図１０の例では、ＢＤ＝７７００イテレーション、ウォームアップ＝３８５０イテレーション、「ＢＤ開始時のＬＲ」に対応する初期値（ＢａｓｅＬＲ）＝５、最終ＬＲ（ＥｎｄＬＲ）＝０．０００１、「ＢＤ開始時のiter.」＝７９８０イテレーションとなる。

上述したように、スキップ制御部３６は、スキップ候補の各層の学習を突然止めるのではなく、イテレーションに依存するＢＤを用いて学習率を徐々にさげていき、目標の学習率になった以降を学習スキップさせる。このとき、スキップ制御部３６は、入力層に近い層から順番に学習スキップを行うことで、学習精度の向上および最終的なエポック数の削減を行うこともできる。

つまり、スキップ制御部３６は、ある層Ｂ（もしくはブロックＢ）がスキップ候補と判定された場合に、その層Ｂ（ブロックＢ）よりも前の層Ａ（ブロックＡ）について上記ＢＤを用いた学習スキップの制御処理が実行されているか否かを判定する。ここで、スキップ制御部３６は、層Ａ（ブロックＡ）について学習スキップの制御処理が実行されている場合は、層Ｂ（ブロックＢ）についても学習スキップの制御処理を実行する。一方、スキップ制御部３６は、層Ａ（ブロックＡ）について学習スキップの制御処理が実行されていない場合は、層Ｂ（ブロックＢ）についても学習スキップの制御処理を開始しない。

ところで、上述したように、学習スキップの制御対象となったタイミングのＬＲに関係なく、一律なＢＤ期間を用いた学習抑制が実行されることから、ＬＲが低い層の場合は、ＢＤ期間到達前に、早めに学習が停止可能な十分な状態に到達するものの学習が継続してしまう。このため、スキップ制御部３６は、ＢＤの開始タイミングに応じて、最適なＢＤの適用幅を動的に決定することで、更なる高速化を実現する。

具体的には、スキップ制御部３６は、抑制対象に選択されたスキップ候補の層の誤差勾配に基づいて、スキップ候補の層の機械学習を停止させるまでのＢＤ期間を設定し、当該層について、ＢＤ期間に到達するまで、学習率を制御して機械学習を実行する。

例えば、スキップ制御部３６は、スキップ候補の層ｎが決定されると、予め設定済みであるＢＤの適用最大期間「ＢＤ＿Ｍａｘ」とＬＲの最大値「ＬＲ＿Ｍａｘ」を記憶部１２等から読み込む。なお、「ＢＤ＿Ｍａｘ」は、ハイパーパラメータであり、任意に設定変更することができ、「ＬＲ＿Ｍａｘ」は、ＬＲスケジューラにより設定される値である。

続いて、スキップ制御部３６は、スキップ候補の層ｎの現在の学習率「ＬＲｎ」を取得し、層ｎのＢＤ期間であるＢＤｎを「ＢＤｎ＝（ＢＤ＿Ｍａｘ）×（ＬＲｎ／ＬＲ＿Ｍａｘ）」として算出する。そして、スキップ制御部３６は、スキップ候補の層ｎのＢＤ期間を「ＢＤｎ」に設定することで、誤差勾配算出部３３などにより学習スキップの制御が実行される。

ここで、ＢＤ期間は、ＬＲスケジューラによるＬＲの変化曲線に基づき設定することもできる。図１１は、ＢＤ期間の設定例を説明する図である。例えば、スキップ制御部３６は、図１１の（ａ）に示すように、イタレーションが進むにつれて、ＬＲがコサイン曲線で変化する場合、ＬＲの二乗曲線に基づき、設定することができる。すなわち、ＢＤ期間は、ＬＲがある一定値より小さい場合は上昇率が低く短い期間が設定され、ＬＲがある一定値より大きい場合は上昇率が高く、長い期間が設定される。

また、スキップ制御部３６は、図１１の（ｂ）に示すように、イタレーションが進むにつれて、ＬＲが一定期間は所定値を維持し、一定期間後は減少した値をさらに一定期間維持することを繰り返すステップ曲線で変化する場合、ｓｉｎ曲線や信頼度成長曲線などに類似する曲線に基づき、設定することができる。すなわち、ＢＤ期間は、変曲点の前後でＬＲの増加に対する期間の増加量が変化する。

また、スキップ制御部３６は、図１１の（ｃ）に示すように、イタレーションが進むにつれて、ＬＲが一定値ずつ減少するリニア直線で変化する場合、直線（比例）に基づき、設定することができる。すなわち、ＢＤ期間は、ＬＲの上昇率と比例して長くなる。

上述したように、スキップ制御部３６は、ＢＤ期間（Braking Distanceの間隔）を、開始時のＬＲの大きさが大きければ長く、小さければ短く、ＬＲの大きさに応じて決定する。図１２は、ＬＲを用いたＢＤ期間の可変例を説明する図である。図１２の左図は、ＢＤ期間を一定値にした参考技術の場合を示しており、図１２の右図は、実施例１による手法で動的に設定した本実施例の場合を示している。

図１２の左図に示すように、図１２の（１）に示すＬＲが大きい状態で学習スキップを開始する場合、参考技術も本実施例による手法でもＢＤ期間は１０エポックが設定される。一方、図１２の（２）に示すＬＲが（１）よりも減少した状態で学習スキップを開始する場合、参考技術ではＢＤ期間として６エポックが設定されるが、本実施例ではＢＤ期間として６エポックが設定される。同様に、図１２の（２）に示すＬＲがさらに小さい状態で学習スキップを開始する場合、参考技術ではＢＤ期間として１０エポックが設定されるが、本実施例ではＢＤ期間としてさらに少ない３エポックが設定される。

このように、スキップ制御部３６は、学習スキップ（ＢＤ）の開始タイミングに応じて、最適なＢＤ期間の適用幅を決定する。

［処理の流れ］
図１３は、実施例１にかかる機械学習処理の流れを示すフローチャートである。なお、ここでは、一例として、層ごとに学習スキップを制御する例を説明するが、複数層をまとめたブロックについても同様に処理することができる。

図１３に示すように、機械学習が開始されると（Ｓ１０１：Ｙｅｓ）、順伝播処理部３１は、訓練データを読み込み（Ｓ１０２）、順伝播処理を実行する（Ｓ１０３）。続いて、誤差逆伝播処理部３２は、各層について誤差勾配を算出する（Ｓ１０４）。そして、候補抽出部３５は、層を１つ選択し（Ｓ１０５）、すでに学習率の制御対象となっているか否かを判定する（Ｓ１０６）。

ここで、候補抽出部３５は、まだ学習率の制御対象ではない場合（Ｓ１０６：Ｎｏ）、スキップ条件を満たすか否かを判定する（Ｓ１０７）。例えば、候補抽出部３５は、入力側から段階的にスキップさせるために、現処理対象の層よりも前の層が学習スキップの対象か否かを判定する。

そして、対象層がスキップ条件を満たなさない場合（Ｓ１０７：Ｎｏ）、スキップ制御部３６が通常学習を判定することで、誤差逆伝播処理部３２が対象層を通常通りに学習する（Ｓ１０８）。

一方、対象層がスキップ条件を満たす場合（Ｓ１０７：Ｙｅｓ）、または、すでに学習率の制御対象である場合（Ｓ１０６：Ｙｅｓ）、スキップ制御部３６は、ＢＤ期間が設定済みか否かを判定する（Ｓ１０９）。

そして、スキップ制御部３６は、ＢＤ期間が設定済みである場合（Ｓ１０９：Ｙｅｓ）、ＢＤ期間に到達（ＢＤ期間が終了）したか否かを判定する（Ｓ１１０）。ここで、スキップ制御部３６は、ＢＤ期間に到達した場合（Ｓ１１０：Ｙｅｓ）、対象層の学習スキップを実行する（Ｓ１１１）。一方、スキップ制御部３６は、ＢＤ期間に到達しない場合（Ｓ１１０：Ｎｏ）、学習率を算出し（Ｓ１１２）、誤差逆伝播処理部３２に対して学習率の変更を指示することで、学習率が変更された機械学習が実行される（Ｓ１１３）。

一方、ＢＤ期間が設定済みでない場合（Ｓ１０９：Ｎｏ）、スキップ制御部３６は、学習率を算出し（Ｓ１１４）、学習率に応じたＢＤ期間を設定し（Ｓ１１５）、誤差逆伝播処理部３２に対して学習率の変更を指示することで、学習率が変更された機械学習が実行される（Ｓ１１３）。

その後、通常学習を実行した場合（Ｓ１０８）、学習率が変更された機械学習が実行された場合（Ｓ１１３）、順伝播処理部３１は、機械学習を終了するか否かを判定する（Ｓ１１６）。例えば、順伝播処理部３１は、精度が目標精度に到達したか否かや指定数のエポックを実行したか否かなど、任意の終了基準に到達したか否かを判定する。

ここで、順伝播処理部３１は、機械学習を継続する場合（Ｓ１１６：Ｎｏ）、Ｓ１０２以降を繰り返し、機械学習を終了する場合（Ｓ１１６：Ｙｅｓ）、機械学習を終了し、学習結果などを表示したりする。

［効果］
上述したように、情報処理装置１０は、機械学習モデル１４内の各層において、機械学習が終了した層の重み更新処理やバックプロパゲーション（誤差逆伝搬）処理をスキップさせることにより、無駄な計算および更新処理を大幅に削減することができる。また、情報処理装置１０は、学習率の制動距離（ＢＤ）の適用により、精度劣化を抑え、精度を保ちつつ、機械学習モデル１４全体の高速化を実現することができる。

また、情報処理装置１０は、学習率の制動距離（ＢＤ）の適用により、単純に学習スキップさせる場合や全く学習スキップさせない場合と比較して、機械学習モデル１４の精度向上を図ることができる。複数のＧＰＵを搭載した情報処理装置１０（ノード）を使用する場合や、複数の情報処理装置１０で構成された並列処理を行う場合は、ＧＰＵ間通信、ノード間通信、集約処理、反映処理に費やす割合が大きくなるので、無駄な計算および更新処理を削減することによる高速化の効果は、より大きくなる。

さらに、情報処理装置１０は、学習スキップ開始時のＬＲに応じてＢＤ期間を動的に設定することで、一律なＢＤ期間を設定する場合と比べて、学習精度の低下を抑制しつつ、更なる高速化を実現することができる。図１４は、効果を説明する図である。図１４に示すように、情報処理装置１０は、図１４の（１）に示すように、ＬＲが「０．３３」で学習スキップを開始する層にはＢＤ期間として１０エポックを設定する。情報処理装置１０は、図１４の（２）に示すように、ＬＲが「０．１２５」で学習スキップを開始する層にはＢＤ期間として６エポックを設定する。情報処理装置１０は、図１４の（３）に示すように、ＬＲが「０．０３」で学習スキップを開始する層にはＢＤ期間として３エポックを設定する。

具体的には、図１４の下図に示すように、ＢＤ期間を動的に設定する実施例１では、一律なＢＤ期間を設定する参考技術に比べて、学習時間が短縮され、高速化が実現される。したがって、一律に１０エポックを設定する手法では、機械学習が終了するまでに３０エポックかかっていたが、本実施例による手法では、１９エポックで終了することができ、１１エポックも削減することができる。なお、（１）から（３）のいずれの場合でも、学習停止までに学習率が十分に小さくなっていることから、エポック数の削減に伴って学習精度が低下することもない。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［数値等］
上記実施例で用いたブロック数、層数、各種閾値、数値、ＧＰＵ数等は、あくまで一例であり、任意に変更することができる。また、学習スキップの判定は、イテレーションごとに限らず、エポックごとに判定することもできる。また、スキップ候補などは、停止対象層の一例であり、ＢＤ期間は、機械学習を停止させるまでの時間である制御時間の一例である。なお、ＬＲスケジューラと学習率を制御するスケジューラは、同じスケジューラを使用する方が好ましい。

［ブロックの制御等］
例えば、複数をまとめたブロックごとに学習スキップの制御およびＢＤ期間の設定を行うこともできる。例を挙げると、情報処理装置１０は、ブロックに含まれる各層のうち、最後の層の誤差勾配やブロックに属する各層の誤差勾配の平均値が閾値未満か否かにより、スキップ対象と判定することもできる。

そして、情報処理装置１０は、スキップ対象のブロックに属する層のうち、学習制御開始時のＬＲが最も大きい層を選択し、そのＬＲを用いたＢＤ期間を当該ブロックのＢＤ期間に設定する。この場合、情報処理装置１０は、当該ブロックに属する各層の機械学習がＢＤ期間経過後に停止するように、各層の学習率を低下させる。また、情報処理装置１０は、スキップ対象のブロックに属する層のうち、学習制御開始時のＬＲに基づく各ＢＤ期間を算出し、そのＢＤ期間の平均値を当該ブロックのＢＤ期間に設定することもできる。同様に、情報処理装置１０は、スキップ対象のブロックに属する層の学習制御開始時のＬＲの平均値に基づくＢＤ期間を当該ブロックのＢＤ期間に設定することもできる。

なお、情報処理装置１０は、つまり、情報処理装置１０は、学習制御開始時のＬＲが最も小さい層については、その層のＬＲに基づくＢＤ期間経過後に機械学習を終了させてもよく、ブロックのＢＤ期間が経過するまで最小ＬＲで機械学習を継続させてもよい。

また、上記実施例では、ブロック単位でスキップ制御やＢＤ設定を行うこともでき、層単位で制御することもできる。例えば、情報処理装置１０は、誤差勾配の差が閾値未満である層を複数検出した場合、入力層から近い順に所定数の層をスキップ対象と判定することもできる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
次に、上記実施例で説明した情報処理装置１０のハードウェア構成例を説明する。図１５は、ハードウェア構成例を説明する図である。図１５に示すように、情報処理装置１０、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、ＣＰＵ１０ｄ、複数のＧＰＵ１０ｅを有する。また、図１５に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図６や図７等に示した機能を動作させるプログラムやＤＢを記憶する。

ＣＰＵ１０ｄは、情報処理装置１０全体の制御を実行し、例えば機械学習に関するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、機械学習の各プロセスを動作させる各ＧＰＵ１０ｅは、図７等に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図７等で説明した各機能を実行するプロセスを動作させる。例えば、各ＧＰＵ１０ｅは、順伝播処理部３１、誤差逆伝播処理部３２、候補抽出部３５、スキップ制御部３６等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、各ＧＰＵ１０ｅは、順伝播処理部３１、誤差逆伝播処理部３２、候補抽出部３５、スキップ制御部３６等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで各種処理方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０情報処理装置
１１通信部
１２記憶部
１３訓練データＤＢ
１４機械学習モデル
２０統合処理部
３０分散処理部
３１順伝播処理部
３２誤差逆伝播処理部
３３誤差勾配算出部
３４通信制御部
３５候補抽出部
３６スキップ制御部

Claims

コンピュータに、
機械学習モデルの機械学習時に、前記機械学習モデルが有する複数の層のうち、機械学習の停止対象に選択された層である停止対象層の学習率を算出し、
前記停止対象層の学習率に応じて、前記機械学習を停止させるまでの時間である制御時間を設定し、
前記停止対象層について、前記制御時間に到達するまで、前記学習率を制御して前記機械学習を実行する、
処理を実行させることを特徴とする機械学習プログラム。
前記設定する処理は、
前記停止対象層の直前の学習率が大きいほど前記制御時間を長く設定し、前記学習率が小さいほど前記制御時間を短く設定する、ことを特徴とする請求項１に記載の機械学習プログラム。
前記設定する処理は、
前記機械学習時の学習率の変化曲線に応じて、前記制御時間を設定する、ことを特徴とする請求項１または２に記載の機械学習プログラム。
前記算出する処理は、
前記機械学習モデルの入力層からの順で、複数の層をまとめた各ブロックのうち前記機械学習の停止対象に選択されたブロックである停止対象ブロックの前記学習率を算出し、
前記設定する処理は、
前記停止対象ブロックの学習率に応じた前記制御時間を設定し、
前記停止対象ブロックに含まれる各層について、前記制御時間に到達するまで、前記学習率を制御して前記機械学習を実行する、ことを特徴とする請求項１から３のいずれか一つに記載の機械学習プログラム。
前記算出する処理は、
前記停止対象ブロックに属する各層の前記学習率を算出し、
前記設定する処理は、
前記各層の学習率に応じた前記制御時間の平均値を、前記停止対象ブロックの前記制御時間に設定する、ことを特徴とする請求項４に記載の機械学習プログラム。
前記算出する処理は、
前記停止対象ブロックに属する各層の前記学習率を算出し、
前記設定する処理は、
前記各層の学習率の平均値に応じて、前記停止対象ブロックの前記制御時間を設定する、ことを特徴とする請求項４に記載の機械学習プログラム。
コンピュータが、
機械学習モデルの機械学習時に、前記機械学習モデルが有する複数の層のうち、機械学習の停止対象に選択された層である停止対象層の学習率を算出し、
前記停止対象層の学習率に応じて、前記機械学習を停止させるまでの時間である制御時間を設定し、
前記停止対象層について、前記制御時間に到達するまで、前記学習率を制御して前記機械学習を実行する、
処理を実行することを特徴とする機械学習方法。
機械学習モデルの機械学習時に、前記機械学習モデルが有する複数の層のうち、機械学習の停止対象に選択された層である停止対象層の学習率を算出し、
前記停止対象層の学習率に応じて、前記機械学習を停止させるまでの時間である制御時間を設定し、
前記停止対象層について、前記制御時間に到達するまで、前記学習率を制御して前記機械学習を実行する、
制御部を有することを特徴とする情報処理装置。