JP2022075190A

JP2022075190A - 演算処理プログラム、演算処理方法および情報処理装置

Info

Publication number: JP2022075190A
Application number: JP2020185813A
Authority: JP
Inventors: 雄高甲斐; Taketaka Kai; 明彦笠置; Akihiko Kasaoki; 靖原; Yasushi Hara; 匠檀上; Takumi Danjo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2022-05-18
Anticipated expiration: 2040-11-06
Also published as: US20220147872A1; EP3996005A1; JP7501315B2; CN114444710A

Abstract

【課題】学習収束までの時間短縮と精度向上の両立を実現することができる演算処理プログラム、演算処理方法及び情報処理装置を提供する。【解決手段】情報処理装置は、機械学習モデルの機械学習時に、機械学習モデルの入力層を含む、機械学習モデルが有する複数の層について誤差勾配を算出し、誤差勾配が閾値未満である層を、機械学習の抑制対象に選択し、その後、抑制対象に選択された層について、機械学習を抑制させるまでの一定期間の間、学習率を制御して機械学習を実行する。【選択図】図１１

Description

本発明は、演算処理プログラム、演算処理方法および情報処理装置に関する。

機械学習モデルの機械学習を高速化するために、ＧＰＵ（Graphics Processing Unit）の利用が有効であり、さらに複数のＧＰＵで処理を分散させることも有効である。これまでに、情報処理装置であるノード内に複数のＧＰＵを実装し、ノード内で並列に機械学習処理を実行することで高速化が行われてきたが、ＧＰＵ間での勾配情報の集約処理や反映処理に時間を要していた。

このような機械学習モデルの機械学習では、新規学習部分は学習するたびに頻繁に更新が必要なために、更新頻度を決定する学習率（Learning Rate：LR）を高めに設定する必要がある。一方で、すでに機械学習が完了している既存学習部分は入力側に近いほど学習率は低く、極端な場合は学習率が０となる場合も多い。学習率が０の部分は、機械学習処理を行わなくてもよいのにもかかわらず、新規学習部分と同じ頻度で勾配情報の集約処理や反映処理や、重みの計算処理を行っており、無駄な処理が多い。

このようなことから、近年では、機械学習を必要としていない層を見極め、勾配情報（Δｗ）の計算や集約処理（Allreduce処理）を行わずに、スキップさせるGradient Skip技術が利用されている。

特開２０１９－２１２２０６号公報国際公開第２０１９／２３９８２１号特開平１１－１２６１９９号公報米国特許出願公開第２０１９／０３７８０１４号明細書

しかしながら、上記技術では、機械学習をスキップさせることで高速化が図れるものの、スキップさせる層やタイミングによっては、機械学習の精度が劣化し、目標精度に到達せずに、機械学習が終了することがある。

一つの側面では、学習収束までの時間短縮と精度向上の両立を実現することができる演算処理プログラム、演算処理方法および情報処理装置を提供することを目的とする。

第１の案では、演算処理プログラムは、コンピュータに、機械学習モデルの機械学習時に、前記機械学習モデルの入力層を含む、前記機械学習モデルが有する複数の層について誤差勾配を算出する処理を実行させる。演算処理プログラムは、コンピュータに、前記誤差勾配が閾値未満である層を、前記機械学習の抑制対象に選択し、前記抑制対象に選択された層について、前記機械学習を抑制させるまでの一定期間の間、学習率を制御して前記機械学習を実行する処理を実行させる。

一実施形態によれば、学習収束までの時間短縮と精度向上の両立を実現することができる。

図１は、実施例１にかかる情報処理装置の分散学習を説明する図である。図２は、機械学習の参考技術を説明する図である。図３は、実施例１にかかる情報処理装置の機械学習を説明する図である。図４は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図５は、分散処理部の詳細を説明する図である。図６は、スキップ候補の検出を説明する図である。図７は、機械学習モデルのブロック分割を説明する図である。図８は、減衰率の低下と制動距離との関係を説明する図である。図９は、学習スキップまでの学習率の制御を説明する図である。図１０は、機械学習モデル全体の学習スキップを説明する図である。図１１は、実施例１にかかる機械学習処理の流れを示すフローチャートである。図１２は、学習率の制動距離を制御したときの効果を説明する図である。図１３は、学習率の制動距離を制御したときの精度向上を説明する図である。図１４は、ＰＯＷ２以外のスケジューラを用いた場合の機械学習結果を説明する図である。図１５は、ハードウェア構成例を説明する図である。

以下に、本願の開示する演算処理プログラム、演算処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
実施例１にかかる情報処理装置１０は、機械学習処理の高速化を実現するために、複数のＧＰＵを用いた分散処理により、機械学習モデルの生成を実行する。図１は、実施例１にかかる情報処理装置１０の分散学習を説明する図である。図１に示すように、情報処理装置１０は、ＣＰＵ（Central Processing Unit）と複数のＧＰＵとを有するコンピュータの一例である。ＣＰＵは、情報処理装置１０全体を司る制御を実行し、機械学習モデルの生成を統合的に管理する。各ＧＰＵは、ＣＰＵからの指示に応じて、機械学習モデルの機械学習を実行する。なお、分散処理の手法は、公知の手法を採用することができる。

近年では、各層の学習率を用いて機械学習を必要としていない層を見極め、勾配情報（Δｗ）の計算や集約処理（Allreduce処理）を行わずに、学習を抑制する（スキップさせる）Gradient Skip技術が利用されている。

ここで、学習スキップの参考技術について説明する。図２は、機械学習の参考技術を説明する図である。図２に示す参考技術は、深層学習（DL：Deep Learning）などにより機械学習モデルを生成する技術であり、ＤＬの誤差勾配から学習状況を取得して誤差勾配の算出をスキップすることで、学習時間を短縮する技術である。

具体的には、参考技術は、学習の進捗状況を示す学習率が低下した層を検出して、当該層に対する学習を省略することで、学習時間を短縮する。例えば、今回のイテレーション時の誤差勾配と直前のイテレーション時の誤差勾配との差分が閾値以上である各層については、次回のイテレーション時にも通常通りに学習が実行され、差分が未満である各層については次回のイテレーション時に学習のスキップが実行される。すなわち、学習率が低下した層については以後の誤差勾配の算出などの機械学習処理が抑制される。

ただし、参考技術では、完全に機械学習をスキップさせた場合の精度劣化の影響が未知な部分もある。すなわち、ＤＮＮ（Deep Neural Network）などの機械学習モデルにおいて、複数の層の誤差逆伝播（バックワード・プロパゲーション）処理をL、学習率（Learning Rate：LR）等を基準に判断し、一気に停止した場合に精度が落ちやすい。また、止めるタイミング（エポック数、イテレーション数）が悪いと、精度が落ちて、最終精度が目標に到達しない場合がある。

そこで、実施例１にかかる情報処理装置１０は、誤差勾配の算出や誤差逆伝播の各処理を抑制する学習スキップ対象と判定された層（レイヤー）について、いきなり学習スキップさせるのではなく、学習を停止させる層の学習率を段階的に小さくしていき、ある程度の学習処理を行ってから、学習スキップさせる。

ここで、実施例１で用いる学習スキップの一例を説明する。図３は、実施例１にかかる情報処理装置１０の機械学習を説明する図である。図３に示すように、機械学習モデルの深層学習では、順伝播による機械学習（計算処理）と誤差逆伝播による重み等の更新処理とが実行される。そこで、情報処理装置１０は、誤差逆伝播による更新時に、学習がある程度進んだイテレーションから重み情報の更新を停止させていくが、その際に、停止させる層を入力側から停止させる。これは、出力側を停止させると、学習精度が目標精度に到達しないことがあるが、入力側は精度への影響が低いためである。

このようにすることで、情報処理装置１０は、誤差勾配の算出だけでなく、誤差逆伝播の計算も削減することができ、学習収束までの時間短縮と精度向上の両立を実現できる。

［機能構成］
図４は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図４に示すように、情報処理装置１０は、通信部１１、記憶部１２、統合処理部２０、複数の分散処理部３０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、管理者端末との間で、各種データや各種指示などを送受信する。

記憶部１２は、各種データや各種プログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部１２は、訓練データＤＢ１３と機械学習モデル１４を記憶する。

訓練データＤＢ１３は、機械学習モデル１４の機械学習に利用される訓練データを記憶するデータセットの一例ある。例えば、訓練データＤＢ１３に記憶される各訓練データは、画像データと教師ラベルとから構成される。なお、訓練データのデータセットは、任意の単位でサブセット（バッチサイズ）に分割することができる。

機械学習モデル１４は、ＤＬなどの機械学習により生成されるモデルであり、複数の層から構成される多層ニューラルネットワークを用いたモデルの一例ある。例えば、機械学習モデル１４は、画像データが入力された場合に、写っている動物の分類を実行する。なお、機械学習モデル１４には、ＤＮＮやＣＮＮ（Convolutional Neural Network）などを採用することができる。

統合処理部２０は、情報処理装置１０全体を司る処理部であり、例えばＣＰＵにより実現される。例えば、統合処理部２０は、機械学習の分散処理、機械学習の開始や終了などを各分散処理部３０に指示し、機械学習に関する全体的な制御を実行する。

各分散処理部３０は、機械学習の分散処理を実行する処理部であり、例えばＧＰＵにより実現される。例えば、各分散処理部３０は、統合処理部２０からの指示により、訓練データＤＢ１３に記憶される各訓練データを用いた機械学習により、機械学習モデル１４の生成を実行する。

［分散処理部の詳細］
次に、各分散処理部３０の詳細について説明する。なお、各分散処理部３０は、同様の構成を有する。図５は、分散処理部３０の詳細を説明する図である。図５に示すように、分散処理部３０は、順伝播処理部３１、誤差逆伝播処理部３２、候補抽出部３５、スキップ制御部３６を有する。

順伝播処理部３１は、機械学習モデル１４の各層に対する順伝播処理を実行する処理部である。具体的には、順伝播処理部３１は、いわゆるForward Propagationを実行するので、詳細な説明は省略する。簡単に説明すると、例えば、順伝播処理部３１は、機械学習モデル１４の先頭の層（入力層）に訓練データである画像データを入力し、入力層から機械学習モデル１４の末尾の層（出力層）に向かって連続的に数値計算が行われた結果である予測結果（分類結果）を、出力層から取得する。そして、順伝播処理部３１は、二乗誤差などを用いて、予測結果と教師レベルとの誤差を算出して誤差関数を算出して、誤差逆伝播処理部３２に出力する。

誤差逆伝播処理部３２は、誤差勾配算出部３３と通信制御部３４とを有し、順伝播処理部３１から入力される誤差関数を用いて、誤差逆伝播法により機械学習モデル１４の各パラメータの誤差を計算し、パラメータ更新を実行する処理部である。すなわち、誤差逆伝播処理部３２は、いわゆるBackward propagationを実行する。

例えば、誤差逆伝播処理部３２は、機械学習モデル１４の出力層から入力層に向かう順番（逆順）に、ニューラルネットワークの各ノード間のエッジの重みの誤差勾配を算出する。誤差勾配は、誤差を重みの関数とみなした場合に、誤差を重みで偏微分した値に相当し、誤エッジの重みを微少量だけ変化させたときの誤差の変化量を表す。そして、誤差逆伝播処理部３２は、誤差勾配を用いて、誤差が小さくなるように各エッジの重みなどの各パラメータの更新を実行する。

誤差勾配算出部３３は、機械学習モデル１４に含まれる複数の層それぞれについて、機械学習モデル１４の各パラメータに対する誤差の勾配を示す誤差勾配を算出する処理部である。例えば、誤差勾配算出部３３は、イテレーションごとに、機械学習モデル１４が有する各層に対して誤差勾配を算出して、誤差勾配に関する誤差勾配情報を候補抽出部３５に出力する。

ここで、誤差勾配算出時に、誤差勾配算出部３３は、学習を抑制すると決定された層（学習スキップ層）については、誤差勾配の算出を抑制する。また、誤差勾配算出部３３は、後述する各ブロックにおける入力層から最も遠い位置にある最後の層のみを誤差勾配の算出対象とすることもできる。なお、誤差勾配の算出手法は、公知の様々な手法を採用することができる。

通信制御部３４は、ＧＰＵ間のAllReduce通信を実行する処理部である。例えば、通信制御部３４は、各ＧＰＵ間で誤差勾配を送受信することで、複数のＧＰＵで算出された誤差勾配をエッジの重み毎に合計し、複数のＧＰＵの間で誤差勾配が集計される。このように集計された誤差勾配に関する情報を用いて、誤差逆伝播処理部３２による機械学習モデル１４の各種パラメータの更新が実行される。

また、通信制御部３４は、後述するスキップ制御部３６により制御指示にしたがって、スキップ対象の層への通信を停止する。また、通信制御部３４は、機械学習モデル１４の各層の中から、学習を止めずに誤差勾配計算および通信（Allreduce）を継続する層と、学習を止める層を特定し、通信を制御する。

候補抽出部３５は、誤差勾配算出部３３により算出された誤差情報を用いて、学習を停止させるスキップ対象の候補となる層を抽出する処理部である。具体的には、候補抽出部３５は、各層のうち、イテレーション間の誤差勾配の変位が小さい層を、スキップ候補として抽出する。

図６は、スキップ候補の検出を説明する図である。図６では、ある層について説明するが、図６に示される処理は各層について実行される。図６に示すように、候補抽出部３５は、各エポック内のイテレーションが完了するたびに、スキップ候補の抽出を実行する。

例えば、候補抽出部３５は、エポック１のイテレーション１が終了したタイミングで誤差勾配＃１を算出して保持する。その後、エポック１のイテレーション２が終了すると、候補抽出部３５は、誤差勾配＃２を算出して保持するとともに、誤差勾配＃１と誤差勾配＃２の差分である差分＃２（例えば絶対値の差）を算出し、この差分＃２と閾値とを比較する。

ここで、候補抽出部３５は、差分＃２が閾値未満である場合、十分に学習が進んだ層と判定し、当該層を特定する情報をスキップ候補としてスキップ制御部３６に通知する。一方、候補抽出部３５は、差分＃２が閾値以上である場合、学習が不十分と判定し、当該層をスキップ候補とはせずに、通常学習を維持する。

また、候補抽出部３５は、機械学習モデル１４が有する複数の層をブロックに分割し、ブロックごとにスキップ候補か否かを判定することもできる。図７は、機械学習モデル１４のブロック分割を説明する図である。図７に示すように、候補抽出部３５は、機械学習モデル１４の入力層から出力層までの各層を、入力層からの順番で所定数に区切って複数のブロックを生成する。例えば、候補抽出部３５は、第１ブロック、第２ブロック、第３ブロック、第４ブロック、第５ブロックを生成する。このとき、候補抽出部３５は、出力層、全結合層、全結合層から２つ前の層を、ブロック化の対象外とすることもできる。

この場合、候補抽出部３５は、各ブロックについて、ブロックに属する層の誤差勾配を算出し、その平均値を用いた上記閾値の比較により、該当ブロックがスキップ候補か否かを判定することもできる。別例としては、候補抽出部３５は、各ブロックについて、ブロックに属する層のうち最後の層（出力層に最も近い層）の誤差勾配を算出し、その誤差勾配を用いた上記閾値の比較により、該当ブロックがスキップ候補か否かを判定することもできる。

スキップ制御部３６は、候補抽出部３５によりスキップ候補と判定された層またはブロックに属する各層について、学習スキップさせるための学習率の制御を実行する処理部である。なお、以下では、ブロック単位を例にして説明する。

具体的には、最終的な到達精度は、学習を抑制（停止）させる層（レイヤー）の学習率がある程度小さくなってから、学習を抑制（学習スキップ）させた方が最終到達精度の低下が小さい傾向がある。このため、スキップ制御部３６は、学習率の制動距離（BD：BRAKING＿DISTANCE）を導入し、スキップ候補のブロックに属する各層に対して、段階的に学習を抑制する。なお、ＢＤは、ハイパーパラメータである。

例えば、スキップ制御部３６は、スキップ候補のブロックに属する各層の学習を突然止めるのではなく、学習を止める命令を与えた際に、イテレーションに依存するＢＤを用いて学習率を下げてから抑制させる。より詳細には、スキップ制御部３６は、機械学習モデル１４の学習で使用するＬＲスケジューラがＰＯＷ２の場合、式（１）を用いて、ＰＯＷ２と同じように、ＢＤを減少させる。

図８は、減衰率の低下と制動距離との関係を説明する図である。図８に示すように、スキップ制御部３６は、ＬＲの制動距離であるＢＤを、式（１）に示す減衰率を乗算することで、設定したイテレーション数である７７００まで、イテレーションごとに徐々に小さくしていき、学習率を低下させていく。なお、式（１）におけるＢＤは、予め定める設定値であり、iteration（イテレーション）は算出時点のイテレーション数である。図８は、ＢＤ＝７７００とした例である。

ここで、スキップ候補と判定されたブロックに属する各層について、上記減衰率を用いて学習スキップを実行する例について説明する。図９は、学習スキップまでの学習率の制御を説明する図である。図９に示すように、スキップ制御部３６は、ウォームアップ（３８５０イテレーション）が完了すると、ＬＲ＝５で機械学習を実行させる。そして、スキップ制御部３６は、イテレーションが７９８０のときにスキップ候補と判定されると、式（２）を用いて、そのイテレーション時のＬＲを計算し、計算されたＬＲを用いて機械学習を実行させる。このように、スキップ制御部３６は、イテレーションごとにＬＲを算出し、算出したＬＲを用いて機械学習を実行させる。

なお、式（２）における「ＬＲ」は、学習に使用される算出対象の学習率である。「ＥｎｄＬＲ」は、学習スキップさせると判定するときのＬＲであり、この「ＥｎｄＬＲ」になるまで、学習率の減衰（低下）が繰り返される。「ＢＤ開始時のＬＲ」は、初期設定時のＬＲである。「Iter.」は、算出時のイテレーション数であり、スキップ候補と判定されたあとは、イテレーションごとに「ＬＲ」が算出されるので、そのイテレーション数となる。「ＢＤ開始時のiter.」は、学習率の減衰を開始するときのイテレーション数である。図９の例では、ＢＤ＝７７００イテレーション、ウォームアップ＝３８５０イテレーション、「ＢＤ開始時のＬＲ」に対応する初期値（ＢａｓｅＬＲ）＝５、最終ＬＲ（ＥｎｄＬＲ）＝０．０００１、「ＢＤ開始時のiter.」＝７９８０イテレーションとなる。

上述したように、スキップ制御部３６は、スキップ候補のブロックに属する各層の学習を突然止めるのではなく、イテレーションに依存するＢＤを用いて学習率を徐々にさげていき、目標の学習率になった以降を学習スキップさせる。このとき、スキップ制御部３６は、入力層に近いブロックから順番に学習スキップを行うことで、学習精度の向上および最終的なエポック数の削減を行うこともできる。

つまり、スキップ制御部３６は、あるブロックＢがスキップ候補と判定された場合に、そのブロックＢよりも前のブロックＡについて上記ＢＤを用いた学習スキップの制御処理が実行されているか否かを判定する。ここで、スキップ制御部３６は、ブロックＡについて学習スキップの制御処理が実行されている場合は、ブロックＢについても学習スキップの制御処理を実行する。一方、スキップ制御部３６は、ブロックＡについて学習スキップの制御処理が実行されていない場合は、ブロックＢについても学習スキップの制御処理を開始しない。

図１０は、機械学習モデル１４全体の学習スキップを説明する図である。図１０に示すように、スキップ制御部３６は、入力側から順に、第１ブロック、第２ブロック、第３ブロック、第４ブロック、第５ブロックに分割する。そして、スキップ制御部３６は、ウォームアップ終了後、一般的な機械学習と同様、学習率を制御していく。

そして、スキップ制御部３６は、第１ブロックが学習スキップ対象と判定されると、式（２）によりイテレーションごとに学習率を、通常学習よりも大幅に低下させた機械学習を実行させる。その後、スキップ制御部３６は、第２ブロックが学習スキップ対象と判定されると、式（２）によりイテレーションごとに学習率を、通常学習よりも大幅に低下させた機械学習を実行させる。このようにして、スキップ制御部３６は、入力層に近いブロックからの順番で、学習スキップを実行する。

［処理の流れ］
図１１は、実施例１にかかる機械学習処理の流れを示すフローチャートである。図１１に示すように、機械学習が開始されると（Ｓ１０１：Ｙｅｓ）、順伝播処理部３１は、訓練データを読み込み（Ｓ１０２）、順伝播処理を実行する（Ｓ１０３）。

続いて、誤差逆伝播処理部３２は、各ブロックについて誤差勾配を算出する（Ｓ１０４）。そして、候補抽出部３５は、ブロックを１つ選択し（Ｓ１０５）、すでに学習率の制御対象となっているか否かを判定する（Ｓ１０６）。

ここで、候補抽出部３５は、まだ学習率の制御対象ではない場合（Ｓ１０６：Ｎｏ）、スキップ条件を満たすか否かを判定する（Ｓ１０７）。例えば、候補抽出部３５は、入力側から段階的にスキップさせるために、現処理対象のブロックよりも前のブロックが学習スキップの対象か否かを判定する。

そして、対象ブロックがスキップ条件を満たなさない場合（Ｓ１０７：Ｎｏ）、スキップ制御部３６が通常学習を判定することで、誤差逆伝播処理部３２が対象ブロックを通常通りに学習する（Ｓ１０８）。

一方、対象ブロックがスキップ条件を満たす場合（Ｓ１０７：Ｙｅｓ）、または、すでに学習率の制御対象である場合（Ｓ１０６：Ｙｅｓ）、スキップ制御部３６は、学習率を算出する（Ｓ１０９）。

ここで、スキップ制御部３６は、算出された学習率に基づき学習スキップを判定する（Ｓ１１０）。例えば、スキップ制御部３６は、学習率が閾値（設定値）以下である場合に、学習スキップを判定し、学習率が閾値（設定値）より大きい場合に、学習スキップではなく学習率を下げた機械学習と判定する。

そして、スキップ制御部３６は、学習スキップと判定した場合（Ｓ１１０：Ｙｅｓ）、誤差逆伝播処理部３２に対して、学習スキップを指示することで、対象ブロックに対する機械学習が抑制される（Ｓ１１１）。

一方、スキップ制御部３６は、学習スキップではないと判定した場合（Ｓ１１０：Ｎｏ）、誤差逆伝播処理部３２に対して、学習率の変更を指示することで、対象ブロックに対して学習率を変更した機械学習が実行される（Ｓ１１２）。

その後、候補抽出部３５は、未処理のブロックがある場合（Ｓ１１３：Ｙｅｓ）、Ｓ１０５以降を繰り返し、未処理の層がない場合（Ｓ１１３：Ｎｏ）、順伝播処理部３１は、機械学習を終了するか否かを判定する（Ｓ１１４）。例えば、順伝播処理部３１は、精度が目標精度に到達したか否かや指定数のエポックを実行したか否かなど、任意の終了基準に到達したか否かを判定する。

ここで、順伝播処理部３１は、機械学習を継続する場合（Ｓ１１４：Ｎｏ）、Ｓ１０２以降を繰り返し、機械学習を終了する場合（Ｓ１１４：Ｙｅｓ）、機械学習を終了し、学習結果などを表示したりする。

［効果］
上述したように、情報処理装置１０は、機械学習モデル１４内の各ブロックにおいて、機械学習が終了した層の重み更新処理やバックプロパゲーション（誤差逆伝搬）処理をスキップさせることにより、無駄な計算および更新処理を大幅に削減することができる。また、情報処理装置１０は、学習率の制動距離（ＢＤ）の適用により、精度劣化を抑え、精度を保ちつつ、機械学習モデル１４全体の高速化を実現することができる。

また、情報処理装置１０は、学習率の制動距離（ＢＤ）の適用により、単純に学習スキップさせる場合や全く学習スキップさせない場合と比較して、機械学習モデル１４の精度向上を図ることができる。複数のＧＰＵを搭載した情報処理装置１０（ノード）を使用する場合や、複数の情報処理装置１０で構成された並列処理を行う場合は、ＧＰＵ間通信、ノード間通信、集約処理、反映処理に費やす割合が大きくなるので、無駄な計算および更新処理を削減することによる高速化の効果は、より大きくなる。

図１２は、学習率の制動距離を制御したときの効果を説明する図である。図１２の縦軸は精度を示し、図１２の横軸はエポック数を示す。図１２に示す例の学習条件は、施行回数を９０エポック数、ＬＲスケジューラをＰＯＷ２、学習スキップの開始タイミングを２５、３５、４５、５５、６５の各学習エポック、５つのブロック分割（［０－５層］、［６－３５層］、［３６－７４層］、［７５－１３１層］、［１３２－１５８層］）とする。

また、このような条件において、学習スキップを適用しなかった機械学習の場合（ＧｒａｄＳｋｉｐなし）、学習スキップはさせるものの、いきなりスキップさせる機械学習の場合（BRAKING＿DISTANCEなし）、BRAKING＿DISTANCEを変更した各機械学習の場合（ＢＤ＝１００、４００、１５４０、３８５０、５３９０、７７００、１５４００）を示している。なお、学習スキップを適用しなかった機械学習の場合を図１２の（ａ）に示し、BRAKING＿DISTANCEなしの機械学習の場合を図１２の（ｂ）に示す。

図１２に示すように、図１２の（ａ）に示す学習スキップさせない場合の方が、図１２の（ｂ）に示すBRAKING＿DISTANCEなしの機械学習の場合に比べて、学習精度が高い。これは、全部の層について機械学習するためである。一方、BRAKING＿DISTANCEを変更した各機械学習は、BRAKING＿DISTANCEなしの機械学習の場合に比べて、学習精度が高い。

また、図１２に示すように、BRAKING_DISTANCEを長くするほど、機械学習が続行されるので最終的な精度劣化は防げる。また、学習スキップの開始時期と制動距離を適切に設定すると、学習スキップなしの通常の機械学習と同等精度を達成できる。つまり、制動距離を０にして学習停止を突然実行するより、適当な局所解に落として徐々に学習停止させた方が精度の劣化を防止することができる。

次に、条件によっては、学習率の制動距離を制御した方が通常の機械学習よりも精度がよくない場合を説明する。図１３は、学習率の制動距離を制御したときの精度向上を説明する図である。図１３の縦軸は精度を示し、図１３の横軸はエポック数を示す。図１３に示す例の学習条件は、施行回数を１８０エポック数、ＬＲスケジューラをＰＯＷ２、学習スキップの開始タイミングを５０、７０、９０、１１０、１３０の各学習エポック、５つのブロック分割（［０－５層］、［６－３５層］、［３６－７４層］、［７５－１３１層］、［１３２－１５８層］）とする。なお、学習スキップを適用しなかった機械学習の場合を図１３の（ａ）に示し、BRAKING＿DISTANCEなしの機械学習の場合を図１３の（ｂ）に示す。

図１３に示すように、BRAKING＿DISTANCEを変更した各機械学習は、図１３の（ｂ）に示すBRAKING＿DISTANCEなしの機械学習の場合に比べて、学習精度が高い。さらに、制動距離を一定値（図１３の場合は７７００イテレーション）以上で設定すれば、図１３の（ａ）に示す通常の機械学習と同等以上の精度を達成することができる。つまり、制動距離を設けて学習を途中で停止させたほうが、何もしないより到達精度が良くなる可能性もあり、学習スキップとは関係なく、精度向上策としても有効である。

また、上記例では、ＢＤの制御についてＬＲスケジューラと同じＰＯＷ２を利用した場合を示したが、これに限定されるものではない。図１４は、ＰＯＷ２以外のスケジューラを用いた場合の機械学習結果を説明する図である。図１４の縦軸は精度を示し、図１４の横軸はエポック数を示す。図１４に示す例の学習条件は、施行回数を９０エポック数、ＬＲスケジューラを４０と８０、学習スキップの開始タイミングを１０、２０、３０、４０、５０の各学習エポック、５つのブロック分割（［０－５層］、［６－３５層］、［３６－７４層］、［７５－１３１層］、［１３２－１５８層］）とする。

なお、学習スキップを適用しなかった機械学習を図１４の（ａ）に示し、ＢＤ＝０の各グラフがBRAKING＿DISTANCEを適用せずに学習スキップをさせた学習結果であり、ＢＤ＝３４６５０等の各グラフがBRAKING＿DISTANCEを適用した学習スキップによる学習結果である。図１４に示すように、ＬＲスケジューラを変更した場合であっても、図１３に示すＰＯＷ２と比較して、同等以上の到達精度にて機械学習を収束させることができる。したがって、ＬＲスケジューラに依存することなく、ＢＤの設定が有効であることがわかる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［数値等］
上記実施例で用いたブロック数、層数、各種閾値、数値、ＧＰＵ数等は、あくまで一例であり、任意に変更することができる。また、学習率は、低下させるだけではなく、増加させることもできる。また、学習スキップの判定は、イテレーションごとに限らず、エポックごとに判定することもできる。なお、ＬＲスケジューラと学習率を制御するスケジューラは、同じスケジューラを使用する方が好ましい。

［ブロックの制御等］
例えば、上記例では、ブロックに属する層のうち、最後の層の誤差勾配やブロックに属する各層の誤差勾配の平均値が閾値未満か否かにより、スキップ対象と判定することもできる。また、上記実施例では、ブロック単位でスキップ制御やＢＤ設定を行う例を説明したが、これに限定されるものではなく、層単位で制御することもできる。例えば、情報処理装置１０は、誤差勾配の差が閾値未満である層を複数検出した場合、入力層から近い順に所定数の層をスキップ対象と判定することもできる。

［ＢＤの設定例］
上記実施例では、各ブロックについて同じＢＤ値を設定する例を説明したが、これに限定されるものではなく、各ブロックについて異なるＢＤ値を設定することもできる。例えば、機械学習が進んだ状態で機械学習を停止させる出力層に近いブロックについては、比較的早い機械学習を段階で停止させる入力層に近いブロックよりも短いＢＤ値を設定することができる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
次に、上記実施例で説明した情報処理装置１０のハードウェア構成例を説明する。図１５は、ハードウェア構成例を説明する図である。図１５に示すように、情報処理装置１０、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、ＣＰＵ１０ｄ、複数のＧＰＵ１０ｅを有する。また、図１５に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図４や図５等に示した機能を動作させるプログラムやＤＢを記憶する。

ＣＰＵ１０ｄは、情報処理装置１０全体の制御を実行し、例えば機械学習に関するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、機械学習の各プロセスを動作させる各ＧＰＵ１０ｅは、図５等に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図３等で説明した各機能を実行するプロセスを動作させる。例えば、各ＧＰＵ１０ｅは、順伝播処理部３１、誤差逆伝播処理部３２、候補抽出部３５、スキップ制御部３６等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、各ＧＰＵ１０ｅは、順伝播処理部３１、誤差逆伝播処理部３２、候補抽出部３５、スキップ制御部３６等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで各種処理方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０情報処理装置
１１通信部
１２記憶部
１３訓練データＤＢ
１４機械学習モデル
２０統合処理部
３０分散処理部
３１順伝播処理部
３２誤差逆伝播処理部
３３誤差勾配算出部
３４通信制御部
３５候補抽出部
３６スキップ制御部

Claims

コンピュータに、
機械学習モデルの機械学習時に、前記機械学習モデルの入力層を含む、前記機械学習モデルが有する複数の層について誤差勾配を算出し、
前記誤差勾配が閾値未満である層を、前記機械学習の抑制対象に選択し、
前記抑制対象に選択された層について、前記機械学習を抑制させるまでの一定期間の間、学習率を制御して前記機械学習を実行する
処理を実行させることを特徴とする演算処理プログラム。
前記実行する処理は、前記抑制対象に選択された層について、イテレーションごとに、制御開始時の学習率と前記一定期間とイテレーション数とを用いて前記学習率を算出し、算出された前記学習率を用いて前記機械学習を実行することを特徴とする請求項１に記載の演算処理プログラム。
前記実行する処理は、前記一定期間の経過時に収束させるように、前記イテレーションごとに前記学習率を低下させることを特徴とする請求項２に記載の演算処理プログラム。
前記選択する処理は、
前記複数の層を前記入力層からの順で複数のブロックに分割し、
前記複数のブロックに属する各層の前記誤差勾配を用いて、前記機械学習の抑制対象とするブロックを選択し、
前記実行する処理は、
前記抑制対象に選択された前記ブロックに属する各層について、前記学習率を制御して前記機械学習を実行する、ことを特徴とする請求項２に記載の演算処理プログラム。
前記選択する処理は、前記入力層に近い順で、前記機械学習の抑制対象とするブロックを選択することを特徴とする請求項４に記載の演算処理プログラム。
前記実行する処理は、前記複数のブロックのうち、前記入力層に近いほど長い前記一定期間を用いて、前記イテレーションごとに前記学習率を算出することを特徴とする請求項４または５に記載の演算処理プログラム。
前記実行する処理は、前記複数のブロックについて、前記一定期間内に収束させる学習率を変更し、前記一定期間の経過時に収束させるように前記イテレーションごとに前記学習率を低下させることを特徴とする請求項４から６のいずれか一つに記載の演算処理プログラム。
コンピュータが、
機械学習モデルの機械学習時に、前記機械学習モデルの入力層を含む、前記機械学習モデルが有する複数の層について誤差勾配を算出し、
前記誤差勾配が閾値未満である層を、前記機械学習の抑制対象に選択し、
前記抑制対象に選択された層について、前記機械学習を抑制させるまでの一定期間の間、学習率を制御して前記機械学習を実行する
処理を実行させることを特徴とする演算処理方法。
機械学習モデルの機械学習時に、前記機械学習モデルの入力層を含む、前記機械学習モデルが有する複数の層について誤差勾配を算出する算出部と、
前記誤差勾配が閾値未満である層を、前記機械学習の抑制対象に選択する選択部と、
前記抑制対象に選択された層について、前記機械学習を抑制させるまでの一定期間の間、学習率を制御して前記機械学習を実行する実行部と
を有することを特徴とする情報処理装置。