JP2023040492A

JP2023040492A - 高速化プログラム、高速化方法および情報処理装置

Info

Publication number: JP2023040492A
Application number: JP2021147507A
Authority: JP
Inventors: 靖原; Yasushi Hara; 明彦笠置; Akihiko Kasaoki; 雄高甲斐; Taketaka Kai; 匠檀上; Takumi Danjo
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-03-23
Also published as: US20230083790A1; EP4148630A1; CN115796234A

Abstract

【課題】学習収束までの時間短縮と精度向上の両立を実現することを課題とする。【解決手段】情報処理装置は、機械学習モデルの機械学習時に、所定の間隔で、機械学習モデルが有する層ごとに、機械学習により更新される重みに関する重み情報の分散を算出する。情報処理装置は、所定の間隔で算出される分散のピーク値と、所定の間隔で算出される重み情報の分散とに基づき、機械学習を抑制する抑制対象の層を決定する。【選択図】図７

Description

本発明は、高速化プログラム、高速化方法および情報処理装置に関する。

機械学習モデルの機械学習を高速化するために、ＧＰＵ（Graphics Processing Unit）の利用が有効であり、さらに複数のＧＰＵで処理を分散させることも有効である。これまでに、情報処理装置であるノード内に複数のＧＰＵを実装し、ノード内で並列に機械学習処理を実行することで高速化が行われてきたが、ＧＰＵ間での勾配情報の集約処理や反映処理に時間を要していた。

このような機械学習モデルの機械学習では、新規学習部分は学習するたびに頻繁に更新が必要なために、更新頻度を決定する学習率（Learning Rate：LR）を高めに設定する必要がある。一方で、すでに機械学習が完了している既存学習部分は入力側に近いほど学習率は低く、極端な場合は学習率が０となる場合も多い。学習率が０の部分は、機械学習処理を行わなくてもよいのにもかかわらず、新規学習部分と同じ頻度で勾配情報の集約処理や反映処理や、重みの計算処理を行っており、無駄な処理が多い。

このようなことから、近年では、機械学習を必要としていない層を見極め、勾配情報（Δｗ）の計算や集約処理（Allreduce処理）を行わずに、スキップさせるGradient Skip技術が利用されている。

特表２０１８－５２０４０４号公報特開平１０－１９８６４５号公報米国特許第６１１９１１２号明細書

しかしながら、上記技術では、機械学習をスキップさせることで高速化が図れるものの、スキップさせる層やタイミングによっては、機械学習の精度が劣化し、目標精度に到達せずに、機械学習が終了することがある。

一つの側面では、学習収束までの時間短縮と精度向上の両立を実現することができる高速化プログラム、高速化方法および情報処理装置を提供することを目的とする。

第１の案では、高速化プログラムは、コンピュータに、機械学習モデルの機械学習時に、所定の間隔で、前記機械学習モデルが有する層ごとに、機械学習により更新される重みに関する重み情報の分散を算出し、前記所定の間隔で算出される前記分散のピーク値と、前記所定の間隔で算出される前記重み情報の分散とに基づき、前記機械学習を抑制する抑制対象の層を決定する、処理を実行させることを特徴とする。

一実施形態によれば、学習収束までの時間短縮と精度向上の両立を実現することができる。

図１は、実施例１にかかる情報処理装置の分散学習を説明する図である。図２は、機械学習の参考技術を説明する図である。図３は、機械学習の学習スキップの処理例を説明する図である。図４は、学習率の制動距離を用いた学習スキップを説明する図である。図５は、判定指標の算出を説明する図である。図６は、各層のスキップ判定を説明する図である。図７は、実施例１にかかる情報処理装置の処理を説明する図である。図８は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図９は、分散処理部の詳細を説明する図である。図１０は、閾値の設定を説明する図である。図１１は、実施例１にかかる処理の流れを示すフローチャートである。図１２は、誤差逆伝播処理の流れを示すフローチャートである。図１３は、停止した層の後の層への影響を説明する図である。図１４は、複数回の学習スキップを行った場合に後の層への影響を説明する図である。図１５は、閾値判定タイミングの改良点を説明する図である。図１６は、閾値判定タイミングの改良を説明する図である。図１７は、ＢＤ周期に合わせて分散計算の実施を説明する図である。図１８は、複数層をまとめた学習スキップの実施を説明する図である。図１９は、複数層をまとめたＢＤ制御の実施を説明する図である。図２０は、ハードウェア構成例を説明する図である。

以下に、本願の開示する高速化プログラム、高速化方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
実施例１にかかる情報処理装置１０は、機械学習処理の高速化を実現するために、複数のＧＰＵを用いた分散処理により、機械学習モデルの生成を実行する。図１は、実施例１にかかる情報処理装置１０の分散学習を説明する図である。図１に示すように、情報処理装置１０は、ＣＰＵ（Central Processing Unit）と複数のＧＰＵとを有するコンピュータの一例である。ＣＰＵは、情報処理装置１０全体を司る制御を実行し、機械学習モデルの生成を統合的に管理する。各ＧＰＵは、ＣＰＵからの指示に応じて、機械学習モデルの機械学習を実行する。なお、分散処理の手法は、公知の手法を採用することができる。

近年では、各層（各レイヤー）の学習率を用いて機械学習を必要としていない層を見極め、勾配情報の計算や集約処理（Allreduce処理）を行わずに、学習を抑制する（スキップさせる）Gradient Skip技術が利用されている。

ここで、学習スキップ（以下では、単に「スキップ」と記載する場合がある）の参考技術について説明する。図２は、機械学習の参考技術を説明する図である。図２に示す参考技術は、深層学習（DL：Deep Learning）などにより機械学習モデルを生成する技術であり、ＤＬの誤差勾配から学習状況を取得して誤差勾配の算出をスキップすることで、学習時間を短縮する技術である。

具体的には、参考技術は、学習の進捗状況を示す学習率が低下した層を検出して、当該層に対する学習を省略することで、学習時間を短縮する。例えば、最新のイテレーション時の誤差勾配と直前のイテレーション時の誤差勾配との差分が閾値以上である各層については、次回のイテレーション時にも通常通りに学習が実行され、差分が未満である各層については次回のイテレーション時に学習のスキップが実行される。すなわち、学習率が低下した層については以後の誤差勾配の算出などの機械学習処理が抑制される。

ただし、参考技術では、完全に機械学習をスキップさせた場合の精度劣化の影響が未知な部分もある。すなわち、ＤＮＮ（Deep Neural Network）などの機械学習モデルにおいて、複数の層の誤差逆伝播（バックワード・プロパゲーション）処理を、学習率（Learning Rate：LR）等を基準に判断し、一気に停止した場合に精度が落ちやすい。また、学習スキップさせるタイミング（エポック数、イテレーション数）が悪いと、精度が落ちて、最終精度が目標に到達しない場合がある。

そこで、近年では、誤差勾配の算出や誤差逆伝播の各処理を抑制する学習スキップ対象と判定された層について、いきなり学習スキップさせるのではなく、学習を停止させる層の学習率を段階的に小さくしていき、ある程度の学習処理を行ってから、学習スキップさせる処理が知られている。

ここで、学習スキップの一例を説明する。図３は、機械学習の学習スキップの処理例を説明する図である。図３に示すように、機械学習モデルの深層学習では、順伝播による機械学習（計算処理）と誤差逆伝播による重み等の更新処理とが実行される。ここで、誤差逆伝播による更新時に、学習がある程度進んだイテレーションから重み情報の更新を停止させていくが、その際に、停止させる層を入力側から停止させる。これは、出力側を停止させると、学習精度が目標精度に到達しないことがあるが、入力側は精度への影響が低いためである。

上述した学習スキップを用いた機械学習の最終的な到達精度は、学習を停止させるレイヤーがある程度学習率が小さくなってから止めた方が最終到達精度の低下が小さい傾向がある。このため、対象のレイヤーの学習を突然止めるのではなく、学習を止める（スキップする）命令を与えた際に学習率を下げてから停止させる学習率の制動距離（BD：BRAKING＿DISTANCE）の導入が進められている。すなわち、ボトムに近い層から順に停止させたレイヤーを身近な極所解に落としていく機械学習が利用されている。

ここで、ハイパーパラメータである学習率の制動距離（BD：BRAKING＿DISTANCE）を導入し、スキップ候補のブロックに属する各層に対して、段階的に学習を抑制する例を説明する。なお、ブロックとは、複数の層をまとめたものである。

図４は、学習率の制動距離を用いた学習スキップを説明する図である。図４に示すように、機械学習を行う情報処理装置は、入力側から順に、各層を、第１ブロック、第２ブロック、第３ブロック、第４ブロック、第５ブロックに分割する。そして、情報処理装置は、ウォームアップ終了後、学習率を制御していく。

そして、情報処理装置は、第１ブロックが学習スキップ対象と判定されると、イテレーションごとに学習率を通常学習よりも大幅に低下させた機械学習を実行させる。その後、情報処理装置は、第２ブロックが学習スキップ対象と判定されると、イテレーションごとに学習率を通常学習よりも大幅に低下させた機械学習を実行させる。このようにして、情報処理装置は、入力層に近いブロックからの順番で、学習スキップを実行する。

このような学習スキップを行う否かの判定では、各層について重みＷの最終更新値「Ｗ_ｌ＋１－Ｗ_ｌ」を用いることが多い。なお、Ｗ_ｌは、ｌ回目の学習時の重みである。図５は、判定指標の算出を説明する図である。行列式である最終更新値「Ｗ_ｌ＋１－Ｗ_ｌ」を閾値に用いるために、図５に示すノルム計算式を用いて、最終更新値のスカラー値を算出し、判定指標を算出する。その後、横軸にエポック（イテレーション、時間に相当）、縦軸に上記スカラー値を設定すると、図６の示す図で表すことができる。図６は、各層のスキップ判定を説明する図である。図６に示すＬ６は先頭からの順で第６層、Ｌ３６は第３６層、Ｌ７５は第７５層、Ｌ１３２は第１３２層を示す。ここで、上述したＢＤを用いた学習スキップなどでは、図６に示した判定指標の傾向にしたがって、入力側から出力側までの各層について閾値を設定して、学習スキップの開始を判断する。

ところが、以下の問題がある。第１に、各層の閾値を設定する必要がある。第２に、重み（Ｗ）や重み傾斜（ΔＷ）そのものから閾値を設定することになるが、学習率（ＬＲ）や重み減衰（Weight－Decay）などの設定により判定指標の傾向が大きく変動するため、ハイパーパラメータであるＬＲやWeight－Decayの最適化した後で、学習スキップの開始閾値を最適化することになる。すなわち、非常に時間がかかり、自動化が難しい。

このようなことから、重み（Ｗ）や重み傾斜（ΔＷ）そのものに依存しない学習スキップの開始閾値の設定方法の実現が切望されている。

そこで、実施例１にかかる情報処理装置１０は、機械学習モデルの機械学習時に、所定の間隔で、機械学習モデルが有する層ごとに、機械学習により更新される重みまたは重み傾斜の分散を算出する。そして、情報処理装置１０は、所定の間隔で算出される分散のピーク値と、所定の間隔で算出される分散とに基づき、機械学習を抑制する抑制対象の層を決定する。

例えば、情報処理装置１０は、層ごとの重み（Ｗ）や重み傾斜（ΔＷ）の分散を求め、分散の時間方向（epochまたはIteration）ピークから閾値以上低下した層を、学習スキップ可能と判定して、学習スキップまたはＢＤを用いた学習スキップを実行する。

図７は、実施例１にかかる情報処理装置１０の処理を説明する図である。図７は、レイヤー３３（Ｌ３３）の重みについて、学習経過と複数の要素を有するテンソルデータ（以下では、単に「テンソル」と記載する場合がある）である重みのヒストグラムの変化との関係を示している。図７に示すように、学習開始前（０エポック）では、重み（Ｗ）のテンソルの各要素は一定値であり、学習中盤（４０エポック）では、重み（Ｗ）のテンソルの各要素の分散は大きく、学習終盤（９０エポック）の重み（Ｗ）のテンソルの各要素の分散は小さく中央値に近い分布となる。

すなわち、あるレイヤーについて、重みのテンソルの各要素のヒストグラムを表示すると、イテレーションが進むにつれて、重み（Ｗ）の分散は中央値に近い分布とする。このため、分散がある程度小さくなっていれば学習が終了したと判断することができる。一方、機械学習の初期段階で行われるウォームアップ処理の期間（例えば０から３８５０イテレーション）で学習スキップを行うと、精度の収束が遅くなり、ウォームアップ中の学習スキップは、スキップした長さ以上に精度へ悪影響を及ぼすことがある。

これらを考慮して、情報処理装置１０は、機械学習モデルの各層について、ウォームアップ処理経過後に、重みのテンソルの各要素の分散のピークからの低下割合で閾値を設定して、学習スキップのタイミングを判定する。このようにすることで、情報処理装置１０は、重み（Ｗ）や重み傾斜（ΔＷ）そのものに依存しない学習スキップの開始閾値の設定方法の実現でき、学習収束までの時間短縮と精度向上の両立を実現することができる。

［機能構成］
図８は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図８に示すように、情報処理装置１０は、通信部１１、記憶部１２、統合処理部２０、複数の分散処理部３０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、管理者端末との間で、各種データや各種指示などを送受信する。

記憶部１２は、各種データや各種プログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部１２は、訓練データＤＢ１３と機械学習モデル１４を記憶する。

訓練データＤＢ１３は、機械学習モデル１４の機械学習に利用される訓練データを記憶するデータセットの一例ある。例えば、訓練データＤＢ１３に記憶される各訓練データは、画像データと教師ラベルとから構成される。なお、訓練データのデータセットは、任意の単位でサブセット（バッチサイズ）に分割することができる。

機械学習モデル１４は、ＤＬなどの機械学習により生成されるモデルであり、複数の層から構成される多層ニューラルネットワークを用いたモデルの一例ある。例えば、機械学習モデル１４は、画像データが入力された場合に、写っている動物の分類を実行する。なお、機械学習モデル１４には、ＤＮＮやＣＮＮ（Convolutional Neural Network）などを採用することができる。

統合処理部２０は、情報処理装置１０全体を司る処理部であり、例えばＣＰＵにより実現される。例えば、統合処理部２０は、機械学習の分散処理、機械学習の開始や終了などを各分散処理部３０に指示し、機械学習に関する全体的な制御を実行する。

各分散処理部３０は、機械学習の分散処理を実行する処理部であり、例えばＧＰＵにより実現される。例えば、各分散処理部３０は、統合処理部２０からの指示により、訓練データＤＢ１３に記憶される各訓練データを用いた機械学習により、機械学習モデル１４の生成を実行する。

［分散処理部の詳細］
次に、各分散処理部３０の詳細について説明する。なお、各分散処理部３０は、同様の構成を有する。図９は、分散処理部３０の詳細を説明する図である。図９に示すように、分散処理部３０は、順伝播処理部３１、誤差逆伝播処理部３２、情報管理部３５、分散算出部３６を有する。

順伝播処理部３１は、機械学習モデル１４の各層に対する順伝播処理を実行する処理部である。具体的には、順伝播処理部３１は、いわゆるForward Propagationを実行するので、詳細な説明は省略する。簡単に説明すると、例えば、順伝播処理部３１は、機械学習モデル１４の先頭の層（入力層）に訓練データである画像データを入力し、入力層から機械学習モデル１４の末尾の層（出力層）に向かって連続的に数値計算が行われた結果である予測結果（分類結果）を、出力層から取得する。そして、順伝播処理部３１は、二乗誤差などを用いて、予測結果と教師レベルとの誤差を算出して誤差関数を算出して、誤差逆伝播処理部３２に出力する。

誤差逆伝播処理部３２は、誤差勾配算出部３３と通信制御部３４とを有し、順伝播処理部３１から入力される誤差関数を用いて、誤差逆伝播法により機械学習モデル１４の各パラメータの誤差を計算し、パラメータ更新を実行する処理部である。すなわち、誤差逆伝播処理部３２は、いわゆるBackward propagationを実行する。

例えば、誤差逆伝播処理部３２は、機械学習モデル１４の出力層から入力層に向かう順番（逆順）に、ニューラルネットワークの各ノード間のエッジの重みの誤差勾配を算出する。誤差勾配は、誤差を重みの関数とみなした場合に、誤差を重みで偏微分した値に相当し、エッジの重みを微少量だけ変化させたときの誤差の変化量を表す。そして、誤差逆伝播処理部３２は、誤差勾配を用いて、誤差が小さくなるように各エッジの重みなどの各パラメータの更新を実行する。

誤差勾配算出部３３は、機械学習モデル１４に含まれる複数の層それぞれについて、機械学習モデル１４の各パラメータに対する誤差の勾配を示す誤差勾配等を算出する処理部である。例えば、誤差勾配算出部３３は、イテレーションごとに、機械学習モデル１４が有する各層に対して誤差勾配（ｇ）、重み（Ｗ）、momentum（ｍ）を算出して、これらの情報を情報管理部３５に出力する。

ここで、誤差勾配算出時に、誤差勾配算出部３３は、学習を抑制すると決定された層（学習スキップ層）については、誤差勾配の算出を抑制する。また、誤差勾配算出部３３は、ある特定の層のみを誤差勾配の算出対象としたり、畳み込み層を誤差勾配の算出対象としたり、誤差勾配の算出対象を任意に設定することもできる。なお、誤差勾配等の算出手法は、公知の様々な手法を採用することができる。

通信制御部３４は、ＧＰＵ間のAllReduce通信を実行する処理部である。例えば、通信制御部３４は、各ＧＰＵ間で誤差勾配を送受信することで、複数のＧＰＵで算出された誤差勾配をエッジの重み毎に合計し、複数のＧＰＵの間で誤差勾配が集計される。このように集計された誤差勾配に関する情報を用いて、誤差逆伝播処理部３２による機械学習モデル１４の各種パラメータの更新が実行される。

また、通信制御部３４は、後述する分散算出部３６からの制御指示にしたがって、スキップ対象の層への通信を停止する。また、通信制御部３４は、機械学習モデル１４の各層の中から、学習を止めずに誤差勾配計算および通信（Allreduce）を継続する層と、学習を止める層を特定し、通信を制御する。

情報管理部３５は、誤差勾配算出部３３から誤差勾配（ｇ）、重み（Ｗ）、momentum（ｍ）を取得して管理する処理部である。例えば、情報管理部３５は、誤差勾配算出部３３から取得した各層の重み（Ｗ）を分散算出部３６に出力する。

分散算出部３６は、機械学習モデル１４の機械学習時に、所定の間隔で、機械学習モデル１４が有する層ごとに、機械学習により更新される重みの分散を算出し、所定の間隔で算出される分散のピーク値と、所定の間隔で算出される分散とに基づき、機械学習を抑制する抑制対象の層を決定する処理部である。

具体的には、分散算出部３６は、入力層から出力層までの順番で、学習スキップが未実行の層のうち最も入力層に近い層を、現在の学習スキップの判定対象である対象層に設定する。その後、分散算出部３６は、各層について、重みの分散の算出および学習スキップの判定を実行する。

例えば、分散算出部３６は、フォームアップ処理完了後、情報管理部３５からイテレーションごとに通知される重み（Ｗ）のテンソルの各要素の分散を算出する。続いて、分散算出部３６は、算出し続ける重みの分散を用いて、ピーク値を特定する。ピーク値を特定後、分散算出部３６は、ピーク値と、算出し続ける重みの分散との差分を算出し、差分が閾値以上となった場合に、現在の対象層を学習スキップさせると判定する。そして、分散算出部３６は、判定結果を通信制御部３４に通知して学習スキップを実行するとともに、次の対象層を決定して判定を繰り返す。

ここで、閾値の設定について説明する。具体的には、分散算出部３６は、重みの分散の変化に応じた閾値を設定する。例えば、閾値の設定パターンは、最初の層（Ｌ０）の閾値、分散の変化の波形が山型の場合の閾値、分散の変化の波形が下り坂の閾値の３パターンがある。分散算出部３６は、各パターンに対して、ピークから低下度合いに基づき閾値を設定する。

図１０は、閾値の設定を説明する図である。図１０の（ａ）に示す機械学習モデル１４の最初の層については、分散算出部３６は、例えばピークから６％下がった値を閾値と設定する。例えば、分散算出部３６は、分散のピークが「１．０」の場合、「０．９４」を閾値に設定する。

また、図１０の（ｂ）に示す波型が山型の層については、分散算出部３６は、例えばピークから４％下がった値を閾値と設定する。例えば、分散算出部３６は、分散のピークが「１．０」の場合、「０．９６」を閾値に設定する。

また、図１０の（ｂ）に示す波形が下り坂の層については、分散算出部３６は、波形が下り坂の層については、例えばピークから２％下がった値を閾値と設定する。例えば、分散算出部３６は、分散のピークが「１．０」の場合、分散「０．９８」を閾値に設定する。

これは、ピークからの低下具合が異なるためであり、分散算出部３６は、一例として、低下度合いを、下り坂＜山形＜最初の層となるように設定する。また、分散算出部３６は、算出し続ける分散の所定のイテレーション間で所定値以上変化した場合に、山型のパターンと判定し、それ以外を下り坂のパターンと判定することができる。

また、分散算出部３６は、学習スキップ対象と判定された層について、単に学習スキップさせるだけでなく、学習率の制動距離（ＢＤ）を用いて徐々に学習を停止させることもできる。

例えば、分散算出部３６は、スキップ候補の層の学習を突然止めるのではなく、学習を止める命令を与えた際に、イテレーションに依存するＢＤを用いて学習率を下げてから抑制させる。より詳細には、分散算出部３６は、機械学習モデル１４の学習で使用するＬＲスケジューラがＰＯＷ２の場合、式（１）を用いて、ＰＯＷ２と同じように、ＢＤを減少させる。

分散算出部３６は、ＬＲの制動距離であるＢＤを、式（１）に示す減衰率を乗算することで、設定したイテレーション数である７７００まで、イテレーションごとに徐々に小さくしていき、学習率を低下させていく。なお、式（１）におけるＢＤは、予め定める設定値であり、iteration（イテレーション）は算出時点のイテレーション数である。

ここで、学習スキップ候補と判定された層について、上記減衰率を用いて学習スキップを実行する例について説明する。分散算出部３６は、ウォームアップ（３８５０イテレーション）が完了すると、ＬＲ＝５で機械学習を実行させる。そして、分散算出部３６は、イテレーションが７９８０のときに学習スキップ候補と判定されると、式（２）を用いて、そのイテレーション時のＬＲを計算し、計算されたＬＲを用いて機械学習を実行させる。このように、分散算出部３６は、イテレーションごとにＬＲを算出し、算出したＬＲを用いて機械学習を実行させる。

なお、式（２）における「ＬＲ」は、学習に使用される算出対象の学習率である。「ＥｎｄＬＲ」は、学習スキップさせると判定するときのＬＲであり、この「ＥｎｄＬＲ」になるまで、学習率の減衰（低下）が繰り返される。「ＢＤ開始時のＬＲ」は、初期設定時のＬＲである。「Iter.」は、算出時のイテレーション数であり、スキップ候補と判定されたあとは、イテレーションごとに「ＬＲ」が算出されるので、そのイテレーション数となる。「ＢＤ開始時のiter.」は、学習率の減衰を開始するときのイテレーション数である。例えば、ＢＤ＝７７００イテレーション、ウォームアップ＝３８５０イテレーション、「ＢＤ開始時のＬＲ」に対応する初期値（ＢａｓｅＬＲ）＝５、最終ＬＲ（ＥｎｄＬＲ）＝０．０００１、「ＢＤ開始時のiter.」＝７９８０イテレーションとなる。

上述したように、分散算出部３６は、学習スキップ候補の層の学習を突然止めるのではなく、イテレーションに依存するＢＤを用いて学習率を徐々にさげていき、目標の学習率になった以降を学習スキップさせる。このとき、分散算出部３６は、入力層に近い層から順番に学習スキップを行うことで、学習精度の向上および最終的なエポック数の削減を行うこともできる。

［処理の流れ］
図１１は、実施例１にかかる処理の流れを示すフローチャートである。図１１に示すように、順伝播処理部３１は、機械学習の開始が指示されると（Ｓ１０１：Ｙｅｓ）、訓練データを読み込み（Ｓ１０２）、順伝播処理を実行する（Ｓ１０３）。

続いて、誤差逆伝播処理部３２、情報管理部３５、分散算出部３６は、誤差逆伝播処理を実行する（Ｓ１０４）。その後、機械学習を継続する場合（Ｓ１０５：Ｎｏ）、Ｓ１０２以降が実行され、機械学習を終了する場合（Ｓ１０５：Ｙｅｓ）、情報処理装置１０は、機械学習処理を終了する。

（誤差逆伝播処理の流れ）
図１２は、誤差逆伝播処理の流れを示すフローチャートである。図１２に示すように、分散算出部３６は、誤差計算と誤差逆伝播を停止させる学習スキップの判定対象である対象層ｎが未設定か否かを判定し（Ｓ２０１）、未設定である場合（Ｓ２０１：Ｙｅｓ）、学習スキップの判定対象である対象層ｎを設定する（Ｓ２０２）。

すでに設定済みである場合（Ｓ２０１：Ｎｏ）もしくは対象層ｎを設定した場合（Ｓ２０２）、分散算出部３６は、学習進度の判定タイミングであるか否かを判定する（Ｓ２０３）。例えば、分散算出部３６は、ウォームアップ処理が完了しており、イテレーション完了後である場合に、学習進度の判定タイミングと判定する。

ここで、分散算出部３６が学習進度の判定タイミングではないと判定した場合（Ｓ２０３：Ｎｏ）、誤差逆伝播処理部３２は、通常の誤差逆伝播処理を実行する（Ｓ２０４）。

一方、分散算出部３６は、学習進度の判定タイミングであると判定した場合（Ｓ２０３：Ｙｅｓ）、対象層ｎの重み（Ｗ）の分散Ｖ（ｎ）を算出する（Ｓ２０５）。なお、分散σ^２は、確率変数Ｘの期待値（母平均）をμ＝Ｅ（Ｘ）とするとき、Ｘと母平均との差の２乗の期待値Ｅ（（Ｘ－μ）^２）をＸの分散として算出される。

続いて、分散算出部３６は、分散Ｖ（ｎ）のピークを求める（Ｓ２０６）。例えば、分散算出部３６は、あるイテレーション（ここでは5000）以降に、重み分散値を計算し、Ｖ_ｉ（ｎ）を学習進度タイミングｉ番目のｎ層の分散値として、Ｖ_ｍａｘ（ｎ）を求める。ここで、分散算出部３６は、「Ｖ_ｉ（ｎ）－、Ｖ_ｉ－１（ｎ）」の値が０未満（「Ｖ_ｉ（ｎ）－、Ｖ_ｉ－１（ｎ）」＜０）である状態が所定数継続する場合は、「下り坂の閾値」を設定する。分散算出部３６は、「Ｖ_ｉ（ｎ）－、Ｖ_ｉ－１（ｎ）」の値が０より大きい状態（「Ｖ_ｉ（ｎ）－、Ｖ_ｉ－１（ｎ）」＞０）から０未満（「Ｖ_ｉ（ｎ）－、Ｖ_ｉ－１（ｎ）」＜０）に変化する場合は、「山型の閾値」を設定する。

その後、分散算出部３６は、分散Ｖ（ｎ）がピークから閾値Ｔ％以下に低下したか否かを判定する（Ｓ２０７）。ここで、分散算出部３６は、分散Ｖ（ｎ）がピークから閾値Ｔ％以下に低下した場合（Ｓ２０７：Ｙｅｓ）、ｎ層が閾値に達したので学習スキップを行うと決定する（Ｓ２０８）。一方、分散算出部３６は、分散Ｖ（ｎ）がピークから閾値Ｔ％以下に低下していない場合（Ｓ２０７：Ｎｏ）、ｎ層が閾値に達していないので通常の誤差逆伝播処理を実行する（Ｓ２０４）。例えば、分散算出部３６は、「（Ｖ_ｉ（ｎ）／Ｖ_ｍａｘ（ｎ））＜閾値」となった場合に、学習スキップを行うと判定する。

［効果］
上述したように、情報処理装置１０は、学習が進むと重みＷのバラつきが少なくなることに着目して、学習進度の判定に、重み（Ｗ）や重み傾斜（ΔＷ）を用いて、ピークからの分散値の低下の割合で学習スキップの可否を判定する。この結果、ハイパーパラメータも分散値のみになるため、短時間で閾値の特定が可能となり自動化を行いやすい。例えば、通常６０回の施行でパラメータを決定する場合であっても、実施例１の手法を用いることで、５回程度の施行でパラメータを決定できる実験結果も得られた。

ところで、ある層について学習スキップにより学習停止を実行した場合、学習スキップが次の層に及ぼす影響について検討する。図１３は、停止した層の後の層への影響を説明する図である。図１３には、Ｃｏｎｖ（Convolution：畳み込み）層で３０層目まで学習スキップさせた場合の直後の３３層目の影響を検討するために、３３層の重みの分散のヒストグラムを示している。

図１３の（ａ）に示すように、Ｌ３０を学習スキップさせなかった場合のＬ３３への影響は、通常の誤差逆伝播処理のため特にない。一方、図１３の（ｂ）に示すように、Ｌ３０を学習スキップさせた場合、Ｌ３３の重み（Ｗ）の分散は山型で上昇する。つまり、重みのヒストグラムのヒートマップ上の矢印で示すように、学習スキップしたあたりから広がりを見せていることが確認できる。

また、図１４は、複数回の学習スキップを行った場合に後の層への影響を説明する図である。図１４には、Ｃｏｎｖ層で６９層目まで学習スキップさせた場合の直後の７２層目の影響を検討するために、７２層の重みの分散のヒストグラムを示している。

図１４の（ａ）に示すように、Ｌ６９を学習スキップさせなかった場合のＬ７２への影響は、通常の誤差逆伝播処理のため特にない。また、図１４の（ｂ）に示すように、Ｌ６９の学習スキップを１回行った場合、矢印で示すように、学習スキップしたあたりから広がりを見せていることが確認できる。また、図１４の（ｃ）に示すように、Ｌ６９の学習スキップを２回行った場合、１回目も２回目も、矢印で示すように、学習スキップしたあたりから広がりを見せていることが確認できる。すなわち、重みの分散はほぼ影響うけないものの、重みのヒストグラムのヒートマップでも学習スキップしたあたりからの広がりが確認できる。

上述したように、学習スキップを実行した層の直後の層は、一度、分散が広がることから、実施例１の手法ではピークの誤認や学習が十分ではない状態での学習スキップが発生することがある。このため、学習スキップ後の最終的な学習精度を低下させないために、閾値判定のタイミングの改良を行う。

図１５は、閾値判定タイミングの改良点を説明する図である。図１５では、ＢＤ期間を用いた学習スキップの制御例で説明するが、通常の学習スキップでも同様である。また、重みの分散計算のサンプリングを２００イテレーションとし、ＢＤ期間を１０００から３０００イテレーションとする。

図１５に示すように、分散算出部３６は、Ｌ６で重みＷの分散の計算を開始し、重みＷの分散が閾値に到達すると、ＢＤ期間を設定して、Ｌ６の学習を徐々に停止する。一方、分散算出部３６は、Ｌ６の重みの分散が閾値に到達したタイミングで、Ｌ９の重みの分散の計算を開始する。さらに、分散算出部３６は、Ｌ６のＢＤ期間中に、Ｌ９の重みの分散が閾値に到達すると、Ｌ９にＢＤ期間を設定して、Ｌ９の学習を徐々に停止する。すなわち、Ｌ６のＢＤ期間とＬ９のＢＤ期間とで重複する期間が発生する。

ところが、Ｌ９のＢＤ期間中に、Ｌ６のＢＤ期間が終了してＬ６の学習が終了すると、図１３や図１４で説明したように、Ｌ９のＢＤ期間中にも関わらず、Ｌ９の重みの分散が広がる。つまり、ＢＤ期間＞分散サンプリング間隔であるために、Ｌ９では、閾値に達した後で、前層（Ｌ６）の学習停止の影響を受けて、Ｌ９の分散値が山型になる場合がある。結果として、Ｌ９の重みの分散が十分下がりきらないときに、言い換えるとまだ学習中に、Ｌ９の学習を停止することになり、最終的な機械学習モデル１４の精度低下を起こす可能性がある。

そこで、実施例２にかかる情報処理装置１０は、図１５の改良点を改良するために、各層について、ＢＤ期間中は後続の層について閾値判定および分散算出を実行しないように制御する。

図１６は、閾値判定タイミングの改良を説明する図である。図１６では、図１５と同様、ＢＤ期間を用いた学習スキップの制御例で説明するが、通常の学習スキップでも同様である。また、重みの分散計算のサンプリングを２００イテレーションとし、ＢＤ期間を１０００から３０００イテレーションとする。

図１６に示すように、分散算出部３６は、Ｌ６で重みＷの分散の計算を開始し、閾値に到達すると、ＢＤ期間を設定して、Ｌ６の学習を徐々に停止する。このとき、分散算出部３６は、Ｌ６の重みが閾値に到達したタイミングであっても、ＢＤ期間中であることから、Ｌ９の重みの分散算出を抑制する。すなわち、Ｌ６のＢＤ期間とＬ９のＢＤ期間とで重複する期間が発生しないように制御する。

そして、分散算出部３６は、Ｌ６のＢＤ期間が終了したタイミングで、Ｌ９で重みＷの分散計算を開始し、閾値に到達すると、Ｌ９のＢＤ期間を設定して、Ｌ９の学習を徐々に停止する。

このように、分散算出部３６は、ＢＤ期間中は、後続の層について重みの分散計算を抑制し、Ｌ６の次の層（Ｌ９）において、Ｌ６による影響を含んだ重みの分散の低下を検知してからＬ９の学習スキップの実施が可能となる。結果として、情報処理装置１０は、最終的な機械学習モデル１４の精度向上を図ることができる。

次に、情報処理装置１０が実行する学習スキップや閾値判定のタイミング制御についてのバリエーションを説明する。

［ＢＤ周期に合わせて分散計算］
図１７は、ＢＤ周期に合わせて分散計算の実施を説明する図である。図１７では、分散計算を行う対象層を、Ｌ０およびＬ３層以降も１層とし、分散対象の層が閾値に達した後に、次の層を分散計算の対象とする。

図１７に示すように、分散処理部３０は、機械学習モデルの最初の層（Ｃｏｎｖ層）であるＬ０について、機械学習を開始してウォームアップ期間が終了したイテレーション「ｎ－３０００」で重み（Ｗ）の分散計算を開始し、イテレーション「ｎ－２０００」、イテレーション「ｎ－１０００」のイテレーションごとに重み（Ｗ）の分散計算を実行する。そして、分散処理部３０は、イテレーション「ｎ」で算出した重み（Ｗ）の分散が閾値に到達すると、ＢＤ制御による学習スキップを開始する。その後、分散処理部３０は、イテレーション「ｎ＋１０００」で、Ｌ０のＢＤ期間が終了し、Ｌ０の学習を停止する。

このとき、分散処理部３０は、イテレーション「ｎ＋１０００」で、Ｌ０の学習が停止したことから、同タイミングのイテレーション「ｎ＋１０００」から、Ｌ０の次の層であるＬ３に対する重みの分散計算を開始する。そして、分散処理部３０は、イテレーション「ｎ＋２０００」でもＬ３の重みの分散を実行し、イテレーション「ｎ＋３０００」で算出した重み（Ｗ）の分散が閾値に到達すると、Ｌ３に対してＢＤ制御による学習スキップを開始する。

その後、分散処理部３０は、イテレーション「ｎ＋４０００」で、Ｌ３のＢＤ期間が終了し、Ｌ３の学習を停止する。このとき、分散処理部３０は、イテレーション「ｎ＋４０００」で、Ｌ３の学習が停止したことから、同タイミングのイテレーション「ｎ＋４０００」から、Ｌ３の次の層であるＬ６に対する重みの分散計算を開始する。

そして、分散処理部３０は、イテレーション「ｎ＋５０００」でＬ６の重みの分散を実行し、イテレーション「ｎ＋６０００」で算出した重み（Ｗ）の分散が閾値に到達すると、Ｌ６に対してＢＤ制御による学習スキップを開始する。

その後、分散処理部３０は、イテレーション「ｎ＋７０００」で、Ｌ６のＢＤ期間が終了し、Ｌ６の学習を停止する。このとき、分散処理部３０は、イテレーション「ｎ＋７０００」で、Ｌ６の学習が停止したことから、同タイミングのイテレーション「ｎ＋７０００」から、Ｌ６の次の層であるＬ９に対する重みの分散計算を開始する。

このように、分散処理部３０は、Braking Distance（ＢＤ）の幅を分散計算周期に合わせることで、例えばＬ０のＢＤ期間が終了し、実際に層の学習停止による影響がＬ３に反映された場合でも、Ｌ３への影響をＬ３の分散計算により対応できる。この結果、分散処理部３０は、１層ごとに確実に学習を停止するので、精度劣化を抑制することができる。

［複数層を扱う例１］
図１８は、複数層をまとめた学習スキップの実施を説明する図である。図１８に示すように、分散処理部３０は、Ｌ０、Ｌ３、Ｌ６、Ｌ９、Ｌ１２、Ｌ１５をまとめてブロック１とし、Ｌ１８、Ｌ２１、Ｌ２４、Ｌ２７、Ｌ３０、Ｌ３３をまとめてブロック２とする。そして、分散処理部３０は、ブロックごとに学習スキップを制御する。

具体的には、分散処理部３０は、機械学習を開始してウォームアップ期間が終了したイテレーション「ｎ」において、ブロック１の各層の重み（Ｗ）の分散計算を開始する。そして、分散処理部３０は、イテレーション「ｎ＋２０」で算出した各層の重みの分散において、Ｌ９とＬ１２とＬ１５の重みの分散が閾値に到達したことを検出すると、Ｌ９とＬ１２とＬ１５についてはそれ以降の重みの分散計算を停止する。

その後、分散処理部３０は、イテレーション「ｎ＋４０」で算出した各層（Ｌ０、Ｌ３、Ｌ６）の重みの分散において、Ｌ３とＬ６の重みの分散が閾値に到達したことを検出すると、Ｌ３とＬ６についてはそれ以降の重みの分散計算を停止する。

その後、分散処理部３０は、イテレーション「ｎ＋６０」で算出したＬ０の重みの分散が閾値に到達したことを検出すると、Ｌ０についてはそれ以降の重みの分散計算を停止する。この結果、分散処理部３０は、ブロック１内の全層の重みが閾値に到達したことから、次のイテレーション「ｎ＋８０」からはブロック１の各層に対して学習スキップを実行するとともに、ブロック２内の各層の重みの分散計算を開始する。

このように、分散処理部３０は、閾値に達した場合に、重みの分散の計算を停止し、計算対象とした複数層が全て閾値範囲内となった場合に対象層の学習スキップを行うことができる。また、分散処理部３０は、ブロックに含める対象層の層数を可変することで、一度に学習スキップさせる層を多くすることもできる。したがって、分散処理部３０は、機械学習モデル１４（ニューラルネットワーク）の入力側から複数層を同時に、重みの分散の計算を実施し、学習スキップさせる層を増やすことができるので、機械学習の高速化を実現することができる。

［複数層を扱う例２］
図１９は、複数層をまとめたＢＤ制御の実施を説明する図である。図１９に示すように、分散処理部３０は、Ｌ０、Ｌ３、Ｌ６、Ｌ９、Ｌ１２、Ｌ１５をまとめてブロック１とし、Ｌ１８、Ｌ２１、Ｌ２４、Ｌ２７、Ｌ３０、Ｌ３３をまとめてブロック２とする。そして、分散処理部３０は、ブロックごろに学習スキップを制御する。

その後、分散処理部３０は、イテレーション「ｎ＋６０」で算出したＬ０の重みの分散が閾値に到達したことを検出すると、Ｌ０についてはそれ以降の重みの分散計算を停止する。この結果、分散処理部３０は、ブロック１内の全層の重みが閾値に到達したことから、次のイテレーション「ｎ＋８０」からはＢＤ制御により、ブロック１の各層に対して学習スキップを実行する。

そして、分散処理部３０は、ＢＤ期間であるイテレーション「ｎ＋８０」から「ｎ＋１６０」までは、ＬＲを徐々に低下させていく学習スキップを実行し、イテレーション「ｎ＋１８０」でＢＤ期間が終了し、ブロック１内の各層の学習スキップを完了する。ここで、分散処理部３０は、イテレーション「ｎ＋１８０」でブロック１内の各層の学習スキップを完了したことから、イテレーション「ｎ＋１８０」でブロック２内の各層の重みの分散計算を開始する。

このように、分散処理部３０は、閾値に達した場合に、重みの分散の計算を停止し、計算対象とした複数層が全て閾値範囲内となった場合に、対象層にＢＤ期間を設定して学習スキップを行うことができる。したがって、分散処理部３０は、機械学習の高速化と精度劣化の抑制とを両立させることができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［数値等］
上記実施例で用いたブロック数、層数、各種閾値、数値、ＧＰＵ数等は、あくまで一例であり、任意に変更することができる。また、学習率は、低下させるだけではなく、増加させることもできる。また、学習スキップの判定は、イテレーションごとに限らず、エポックごとに判定することもできる。なお、ＬＲスケジューラと学習率を制御するスケジューラは、同じスケジューラを使用する方が好ましい。

また、重みの分散の算出タイミングも、イテレーションごとに限らず、所定の訓練データ数ごと、１エポックごとなど任意に設定変更することができる。また、重み情報として重みの分散を用いる例を説明したが、重み傾斜の分散を用いることもできる。

［ブロックの制御等］
例えば、上記例では、ブロックに属する層のうち、最後の層の誤差勾配やブロックに属する各層の重みの分散の平均値が閾値未満か否かにより、スキップ対象と判定することもできる。

［ＢＤの設定例］
上記実施例では、各層や各ブロックについて同じＢＤ期間を設定することも、異なるＢＤ期間を設定することもできる。例えば、機械学習が進んだ状態で機械学習を停止させる出力層に近いブロックについては、比較的早い機械学習を段階で停止させる入力層に近いブロックよりも短いＢＤ期間を設定することができる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
次に、上記実施例で説明した情報処理装置１０のハードウェア構成例を説明する。図２０は、ハードウェア構成例を説明する図である。図２０に示すように、情報処理装置１０、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、ＣＰＵ１０ｄ、複数のＧＰＵ１０ｅを有する。また、図２０に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図８や図９等に示した機能を動作させるプログラムやＤＢを記憶する。

ＣＰＵ１０ｄは、情報処理装置１０全体の制御を実行し、例えば機械学習に関するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、機械学習の各プロセスを動作させる各ＧＰＵ１０ｅは、図８や図９等に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図８や図９等で説明した各機能を実行するプロセスを動作させる。例えば、各ＧＰＵ１０ｅは、順伝播処理部３１、誤差逆伝播処理部３２、情報管理部３５、分散算出部３６等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、各ＧＰＵ１０ｅは、順伝播処理部３１、誤差逆伝播処理部３２、情報管理部３５、分散算出部３６等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで各種処理方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０情報処理装置
１１通信部
１２記憶部
１３訓練データＤＢ
１４機械学習モデル
２０統合処理部
３０分散処理部
３１順伝播処理部
３２誤差逆伝播処理部
３３誤差勾配算出部
３４通信制御部
３５情報管理部
３６分散算出部

Claims

コンピュータに、
機械学習モデルの機械学習時に、所定の間隔で、前記機械学習モデルが有する層ごとに、機械学習により更新される重みに関する重み情報の分散を算出し、
前記所定の間隔で算出される前記分散のピーク値と、前記所定の間隔で算出される前記重み情報の分散とに基づき、前記機械学習を抑制する抑制対象の層を決定する、
処理を実行させることを特徴とする高速化プログラム。
前記算出する処理は、
前記所定の間隔としてイテレーションごとに、前記層ごとの前記重み情報の分散を算出し、
前記決定する処理は、
前記層ごとに、前記イテレーションごとに算出される前記重み情報の分散の傾向に基づき、前記重み情報の分散の波形パターンを特定し、
前記層ごとに前記波形パターンに応じた閾値を設定し、
前記分散のピーク値と、前記所定の間隔で算出される前記重み情報の分散との差分が前記閾値以上となった層を前記抑制対象の層に決定する、
ことを特徴とする請求項１に記載の高速化プログラム。
前記決定する処理は、
前記機械学習モデルの入力層から順で、前記抑制対象を判定する対象層を選択し、
前記対象層について、前記分散のピーク値と前記重み情報の分散とに基づき、前記所定の間隔ごとに前記機械学習を抑制するか否かを判定する、
ことを特徴とする請求項１または２に記載の高速化プログラム。
前記算出する処理は、
前記機械学習モデルが有する複数の層のうち、前記抑制対象の層と決定された第１層の機械学習が停止した後に、前記第１層の次に位置する第２層について、前記重み情報の分散の算出を開始する、
ことを特徴とする請求項３に記載の高速化プログラム。
前記算出する処理は、
前記機械学習モデルが有する複数の層を入力層からの順で複数のブロックに分割し、
前記複数のブロックそれぞれに属する各層について前記重み情報の分散を算出し、
前記決定する処理は、
前記機械学習モデルの入力に近い順で前記抑制対象を判定する対象ブロックを選択し、
前記対象ブロックについて、前記対象ブロックに属する各層の前記分散のピーク値と前記重み情報の分散との差分が閾値以上となった場合に、前記対象ブロックに属する各層の前記機械学習を抑制する、
ことを特徴とする請求項１または２に記載の高速化プログラム。
前記算出する処理は、
前記複数のブロック層のうち、前記抑制対象の層と決定された第１ブロックの機械学習が停止した後に、前記第１ブロックの次に位置する第２ブロックについて、前記重み情報の分散の算出を開始する、
ことを特徴とする請求項５に記載の高速化プログラム。
前記決定する処理は、
前記機械学習を抑制する抑制対象の層に対して、前記機械学習を抑制させるまでの一定期間の間、イテレーションごとに学習率を低下させて前記機械学習を実行する、
ことを特徴とする請求項１に記載の高速化プログラム。
コンピュータが、
機械学習モデルの機械学習時に、所定の間隔で、前記機械学習モデルが有する層ごとに、機械学習により更新される重みに関する重み情報の分散を算出し、
前記所定の間隔で算出される前記分散のピーク値と、前記所定の間隔で算出される前記重み情報の分散とに基づき、前記機械学習を抑制する抑制対象の層を決定する、
処理を実行することを特徴とする高速化方法。
機械学習モデルの機械学習時に、所定の間隔で、前記機械学習モデルが有する層ごとに、機械学習により更新される重みに関する重み情報の分散を算出し、
前記所定の間隔で算出される前記分散のピーク値と、前記所定の間隔で算出される前記重み情報の分散とに基づき、前記機械学習を抑制する抑制対象の層を決定する、
制御部を有することを特徴とする情報処理装置。