JP7436830B2

JP7436830B2 - 学習プログラム、学習方法、および学習装置

Info

Publication number: JP7436830B2
Application number: JP2020068626A
Authority: JP
Inventors: 匠檀上
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-04-06
Filing date: 2020-04-06
Publication date: 2024-02-22
Anticipated expiration: 2040-04-06
Also published as: CN113496289A; JP2021165907A; US20210312328A1; EP3893164A1

Description

本発明は、学習プログラム、学習方法、および学習装置に関する。

コンピュータを利用したデータ分析の１つとして、機械学習が行われることがある。機械学習では、既知の事例を示す訓練データをコンピュータに入力する。コンピュータは、訓練データを分析して、要因（説明変数や独立変数と言うことがある）と結果（目的変数や従属変数と言うことがある）との間の関係を一般化したモデルを学習する。学習されたモデルを用いることで、未知の事例についての結果を予測することができる。例えば、手書き文字を認識する文字認識モデルが学習される。

機械学習では、学習を繰り返すごとに、モデルを用いた推論の結果が正解に近づくように、モデルに含まれるパラメータの値が更新される。パラメータの更新手法として勾配降下法がある。勾配降下法は、学習結果と正解との誤差を示す損失関数の勾配を計算し、その勾配において降下する方向にパラメータを更新するものである。勾配降下法の中には、ランダムに並び替えられた訓練データそれぞれで学習を行うごとに、勾配に基づいてパラメータを更新する確率的勾配降下法（ＳＧＤ：Stochastic Gradient Descent）がある。

ＳＧＤでは、損失関数の曲率が大きい場合、学習に時間がかかることがある。そこで、ＳＧＤを用いた機械学習を高速化させる手法としてモーメンタム法がある。モーメンタム法では、最新の学習ステップで計算した勾配と、過去の学習ステップで計算した勾配とを用いてパラメータの値が更新される。モーメンタム法を用いれば、最新の勾配と過去の勾配とが同じ方向に向いている次元のパラメータの更新量が大きくなり、最新の勾配と過去の勾配とが方向を変えている次元のパラメータの値の更新量が小さくなるように、ＳＧＤが修正される。

機械学習の学習効率を向上させる技術としては、例えば、学習済みの既存ニューラルネットワークの後段に新規ニューラルネットワークを接続して機械学習を行う機械学習装置が提案されている。

特開２０１７－１８２３２０号公報

機械学習では、学習の繰り返し回数が増えるに従って、１回の学習当りのパラメータの更新量が小さくなる。多層のニューラルネットワークのように複数のレイヤを有するモデルの学習においては、レイヤごとに、パラメータの更新量が異なってくることがある。例えばモデル内の一部のレイヤが、既存のモデルから流用したものである場合、流用されたレイヤについては十分に学習済みであり、早い段階で１回の学習当りのパラメータの更新量が少なくなる。そこで、パラメータの変化が少ないレイヤについては、パラメータの更新頻度を低下させ、パラメータの更新に要する計算量を削減することが考えられる。

しかし、機械学習の手法としてモーメンタム法を適用している場合、一部のレイヤについてパラメータの更新処理をスキップさせてしまうと、次回の学習において該当レイヤのパラメータの更新量の計算に用いる過去の誤差勾配が得られず、更新量の計算ができない。そのため、モーメンタム法を適用した機械学習において、一部のレイヤの学習をスキップさせることができず、学習の計算量の削減が困難となっている。

１つの側面では、本発明は、機械学習の計算量を削減することを目的とする。

１つの案では、以下の処理をコンピュータに実行させる学習プログラムが提供される。コンピュータは、複数のレイヤを有するモデルに対して繰り返し実行される学習処理において、複数のレイヤのうちの一部の更新抑止レイヤのパラメータの値の更新処理を、学習処理ｋ（ｋは２以上の整数）回に１回だけ実行する。そしてコンピュータは、更新抑止レイヤのパラメータの値の更新処理を実行する場合、ｋ回前の学習処理で計算されたパラメータの値と、２ｋ回前の学習処理で計算されたパラメータの値とを用いて、モーメンタム法を適用した勾配降下法によって、更新後のパラメータの値を算出する。

１態様によれば、機械学習の計算量を削減する。

第１の実施の形態に係る学習方法の一例を示す図である。学習装置のハードウェアの一例を示す図である。モデルの構造の一例を示す図である。機械学習の一例を示す図である。誤差勾配に応じた重みの更新例を示す図である。重み更新処理の実施状況の一例を示す図である。モーメンタム法の適用の効果を示す図である。重みパラメータの値の推移の第１の例を示す図である。重みパラメータの値の推移の第２の例を示す図である。重みパラメータの値の推移の第３の例を示す図である。重みパラメータの値の推移の第４の例を示す図である。重みパラメータの値の推移の第５の例を示す図である。学習装置の機能の一例を示すブロック図である。重み情報記憶部の一例を示す図である。スキップ情報記憶部の一例を示す図である。学習処理の手順を示すフローチャートの前半である。学習処理の手順を示すフローチャートの後半である。

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
図１は、第１の実施の形態に係る学習方法の一例を示す図である。図１には、第１の実施の形態に係る学習方法を実施する学習装置１０を示している。学習装置１０は例えばコンピュータであり、学習プログラムを実行することにより、第１の実施の形態に係る学習方法を実施することができる。

学習装置１０は、記憶部１１と処理部１２とを有する。記憶部１１は、例えば学習装置１０が有するメモリ、またはストレージ装置である。処理部１２は、例えば学習装置１０が有するプロセッサ、または演算回路である。

記憶部１１には、訓練データ１とモデル２とが格納される。訓練データ１は、モデル２の訓練に使用するデータである。訓練データ１には、モデル２への入力データと、モデル２を用いた計算結果に対する正解を示すラベルとが含まれる。モデル２は、複数のレイヤに分かれている。各レイヤは、それぞれ１以上のパラメータを有する。モデル２は、例えば多層ニューラルネットワークである。その場合、パラメータは、各レイヤのノードに入力されるデータに対する重みパラメータである。

処理部１２は、訓練データ１を用いてモデル２の学習処理を繰り返し実行する。すなわち処理部１２は、訓練データ１に示される入力データをモデル２に入力した場合に、訓練データ１に示されるラベルが計算結果として出力されるようなパラメータの値を探索する。

例えば処理部１２は、まず訓練データ１に示される入力データをモデル２への入力として、パラメータの値を用いてモデル２に沿った計算を行い、出力値を算出する。次に処理部１２は、訓練データ１に示されるラベルと出力値とを比較し、モデル２の更新後のパラメータの値を算出する。そして処理部１２は、モデル２のパラメータの値を、算出したパラメータの値に更新する。

なお処理部１２は、モデル２に含まれる複数のレイヤのうち、一部のレイヤを更新抑止レイヤとすることができる。更新抑止レイヤは、学習における更新後のパラメータの値の算出と、そのパラメータの更新の処理を抑止するレイヤである。

例えば、処理部１２は、学習処理を実行するごとに、モデル２のレイヤそれぞれについて、更新抑止レイヤとするか否かを決定する。具体的には、処理部１２は、複数のレイヤそれぞれについて、前回のパラメータの値の更新処理における更新前と更新後とのパラメータの値の差分を算出する。そして処理部１２は、算出した差分に基づいて、該当レイヤを更新抑止レイヤとするか否かを決定する。

例えば各レイヤにおいて、複数のパラメータが存在する場合がある。この場合、処理部１２は、一のレイヤの複数のパラメータの値それぞれの、前回のパラメータの更新処理における更新前の値と更新後の値との差分を要素とするベクトルのノルムを計算する。ノルムは、ベクトルの長さの概念を一般化したものである。そして処理部１２は、計算したノルムが所定の閾値以下の場合、当該一のレイヤを更新抑止レイヤに決定する。

図１の例では、学習回数（何回目の学習処理か）ごとに、各レイヤのパラメータの値の更新量に基づいて計算した値（ノルムなど）が閾値より大きいか否かを丸印で示している。白丸が、更新量に基づく値が閾値より大きいことを示している。黒丸が、更新量に基づく値が閾値以下であることを示している。

処理部１２は、学習処理において、更新抑止レイヤのパラメータの値の更新処理を、学習処理ｋ（ｋは２以上の整数）回に１回だけ実行する。ｋはスキップ数であり、例えば予め所定値が設定されている。図１の例ではｋ＝２であり、学習処理２回に１回だけ、パラメータの値の更新処理がスキップされる。

処理部１２は、各レイヤのパラメータの更新後の値を、モーメンタム法を適用した勾配降下法によって計算する。なお処理部１２は、更新抑止レイヤ以外のレイヤについては、毎回の学習処理においてパラメータの値の更新が行われているため、一般的なモーメンタム法を適用することができる。すなわち処理部１２は、１回前の学習処理で計算されたパラメータの値と、２回前の学習処理で計算されたパラメータの値とを用いて、更新後のパラメータの値を算出する。

例えば処理部１２は、モデル２が多層ニューラルネットワークであれば、重みパラメータの値を算出することとなる。ここで、１回前の学習処理で計算された重みパラメータの値をｗ_n-1、１回前の学習処理で計算された重みパラメータの値をｗ_n-2とする。このとき処理部１２は、ｗ_n-1を用いて、１回前の学習処理における誤差勾配∇Ｅ_n-1を算出する。そして処理部１２は、ｗ_n-1、ｗ_n-2、∇Ｅ_n-1を変数として含むモーメンタム法を適用した勾配降下法の計算式Ｆ（ｗ_n-1，ｗ_n-2，∇Ｅ_n-1）により、今回の学習処理における重みパラメータの値ｗ_nを算出する。

他方、更新抑止レイヤについては、直前の所定回数分の学習処理におけるパラメータの値の更新が行われていない。そのため、一般的なモーメンタム法を適用することができない。そこで処理部１２は、更新抑止レイヤのパラメータの値の更新処理を実行する場合、ｋ回前の学習処理で計算されたパラメータの値と、２ｋ回前の学習処理で計算されたパラメータの値とを用いて、更新後のパラメータの値を算出する。

例えばモデル２が多層ニューラルネットワークの場合、ｋ回前の学習処理で計算された重みパラメータの値をｗ_n-k、２ｋ回前の学習処理で計算された重みパラメータの値をｗ_n-2kとする。このとき処理部１２は、ｗ_n-kを用いて、ｋ回前の学習処理における誤差勾配∇Ｅ_n-kを算出する。そして処理部１２は、ｗ_n-k、ｗ_n-2k、∇Ｅ_n-kを変数として含むモーメンタム法を適用した勾配降下法の計算式Ｇ（ｗ_n-k，ｗ_n-2k，∇Ｅ_n-k）により、今回の学習処理における重みパラメータの値ｗ_nを算出する。

このように処理部１２は、パラメータの値の更新処理をスキップした場合、その後のパラメータの値の更新処理において、スキップした回数に応じた計算式で更新後のパラメータの値を計算する。これにより、パラメータの値の更新処理をスキップしても、その後の、学習において、モーメンタム法を適用した勾配降下法によって更新後のパラメータの値を計算することができる。すなわち、モーメンタム法を適用した機械学習において、一部のレイヤのパラメータの値の更新処理回数の削減による計算量の削減が可能となる。

なお処理部１２は、更新後のパラメータの値の算出において、近似値を用いることもできる。例えば処理部１２は、パラメータの値の更新処理を実行していない学習処理における誤差勾配を、パラメータの値の更新処理を実行している学習処理における誤差勾配と同じ値に近似することで、更新後のパラメータの値を算出する。スキップした更新処理における誤差勾配を用いた計算を行うことで、より精度の高い計算が可能となり、学習を効率的に収束させることが可能となる。その結果、学習終了までの計算量が削減される。

また更新処理がスキップされた学習処理で算出されるべきパラメータの値が不明であることにより生じる誤差を、例えばモーメンタム項に任意の係数を乗算することで補正することもできる。すなわちモーメンタム法を適用した勾配降下法の計算式には、モーメンタム法の影響を反映させるモーメンタム項が含まれる。そこで処理部１２は、更新抑止レイヤのパラメータの値の計算では、ｋ回前の学習処理で計算されたパラメータの値と２ｋ回前の学習処理で計算されたパラメータの値との差分に所定の係数を乗算した項をモーメンタム項とする。これにより、適切な係数を設定することで、精度の高い計算が可能となる。

さらに処理部１２は、例えば前回のパラメータの値の更新処理におけるパラメータの更新前の値と更新後の値との差分に基づいて、更新抑止レイヤとするか否かを決定することができる。これにより、パラメータの値の更新処理をスキップさせてもモーメンタム法による計算が可能なレイヤのみ、更新抑止レイヤとすることができる。その結果、更新量が少なく、更新処理をスキップさせたとしても全体の学習の収束に悪影響を及ぼさないレイヤのみを更新抑止レイヤとすることができる。

例えば処理部１２は、あるレイヤの複数のパラメータそれぞれの差分を要素とするベクトルのノルムが所定の閾値以下の場合に、そのレイヤを更新抑止レイヤに決定することで、パラメータの更新量が少ないレイヤを適切に判断することができる。

〔第２の実施の形態〕
次に第２の実施の形態について説明する。第２の実施の形態は、モーメンタム法を適用した勾配降下法（例えばＳＧＤ）を用いた機械学習において、多層のニューラルネットワークのうちの一部のレイヤにおいて学習をスキップさせることによる処理の効率化を可能としたものである。

図２は、学習装置のハードウェアの一例を示す図である。学習装置１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

メモリ１０２は、学習装置１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

バス１０９に接続されている周辺機器としては、ストレージ装置１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、コンピュータの補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

グラフィック処理装置１０４には、モニタ２１が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、有機ＥＬ（Electro Luminescence）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取り、または光ディスク２４へのデータの書き込みを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

機器接続インタフェース１０７は、学習装置１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース１０８は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース１０８は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。

学習装置１００は、以上のようなハードウェアによって、第２の実施の形態の処理機能を実現することができる。なお、第１の実施の形態に示した学習装置１０も、図２に示した学習装置１００と同様のハードウェアにより実現することができる。

学習装置１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。学習装置１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、学習装置１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。また学習装置１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

次に、学習装置１００が学習するモデルの構造について説明する。
図３は、モデルの構造の一例を示す図である。モデル４０は、多層のニューラルネットワークである。多層のニューラルネットワークをモデル４０として用いることで、学習装置１００は、機械学習アルゴリズムとして深層学習を使用することができる。図３に示しているモデル４０は、Ｎ層（Ｎは１以上の整数）のニューラルネットワークである。

モデル４０は、それぞれが人口ニューロンを表す複数のノード４１を含んでいる。複数のノード４１は、複数のレイヤに分かれており、入力レイヤ以外にＮ個のレイヤを有する。第１レイヤ～第Ｎ－１レイヤは隠れレイヤであり、第Ｎレイヤは出力レイヤである。

隣接するレイヤのノード間は、結合関係を示す矢印で接続されている。矢印で結合されたノード間で、矢印の方向にデータが送信される。ニューラルネットワークでは、入力レイヤに近い方のノードから遠い方のノードでデータが送信されることとなる。

各矢印には、両側のノードの結合の強さを示す重みパラメータが付与されている。例えばモデル４０では、入力レイヤのノード数が「３」、第１レイヤのノード数が「４」であるため、入力レイヤと第１レイヤとのノード間の結合の強さを示す重みパラメータ群には、ｗ_1,1，・・・，ｗ_1,12の１２個の重みパラメータが含まれる。各レイヤでは、入力されたデータに対して、そのデータの重みパラメータに応じた重み付けて、出力が計算される。以下、各レイヤのノードに入力される重みパラメータ群を、そのレイヤの重みパラメータ群と呼ぶ。例えば、入力レイヤのノードから第１レイヤのノードに送信されるパラメータ群は、第１レイヤの重みパラメータ群である。

学習装置１００は、機械学習において、第１レイヤ～第Ｎレイヤそれぞれの重みパラメータ群の適切な値を学習する。
図４は、機械学習の一例を示す図である。学習装置１００は、ストレージ装置１０３に訓練データ５０を記憶している。訓練データ５０には、モデル４０に入力するデータ５１と、学習結果の正解を示すラベル５２が含まれる。学習装置１００は、訓練データ５０を用いて機械学習を行いモデル４０の適切な重みパラメータの値を求める。

モデル４０は、Ｆｏｒｗａｒｄ、ＢａｃｋｗａｒｄおよびＵｐｄａｔｅを含む複数のフェーズを繰り返すことで学習される。
Ｆｏｒｗａｒｄフェーズでは、訓練データ５０に含まれる説明変数の値が入力用のデータ５１としてモデル４０の入力レイヤ４２のノードに対して入力される。入力されたデータ５１は、入力レイヤ４２のノードから第１レイヤ４３のノードに送信される。第１レイヤ４３では、第１レイヤ４３の重みパラメータ群４３ａを用いて、入力されたデータ５１に応じた出力値を計算する。第１レイヤ４３で計算された出力値を含むデータ５３は、第１レイヤ４３から第２レイヤ４４に送信される。

第２レイヤ４４では、第２レイヤ４４の重みパラメータ群４４ａを用いて、入力されたデータ５３に応じた出力値を計算する。第２レイヤ４４で計算された出力値を含むデータ５４は、第２レイヤ４４から第３レイヤ４５に送信される。

第３レイヤ４５では、第３レイヤ４５の重みパラメータ群４５ａを用いて、入力されたデータ５４に応じた出力値を計算する。第３レイヤ４５で計算された結果が、出力データ５５として出力される。

以上がＦｏｒｗａｒｄフェーズの処理である。Ｆｏｒｗａｒｄフェーズが終わると、Ｂａｃｋｗａｒｄフェーズが実行される。
Ｂａｃｋｗａｒｄフェーズでは、出力データ５５とラベル５２との差分６１が算出される。そして差分６１に応じて、出力レイヤである第３レイヤ４５の重みパラメータごとの誤差勾配６２が算出される。また差分６１に基づいて、正解を得るための第３レイヤ４５への適切な入力データと、実際に入力されたデータ５４との差分６３が算出される。そして差分６３に応じて、第２レイヤ４４の重みパラメータごとの誤差勾配６４が算出される。さらに差分６３に基づいて、正解を得るための第２レイヤ４４への適切な入力データと、実際に入力されたデータ５３との差分６５が算出される。そして差分６５に応じて、第１レイヤ４３の重みパラメータごとの誤差勾配６６が算出される。

以上がＢａｃｋｗａｒｄフェーズの処理である。Ｂａｃｋｗａｒｄにおける誤差勾配６２，６４，６６に基づいて、Ｕｐｄａｔｅフェーズが実行される。Ｕｐｄａｔｅフェーズでは、重みパラメータの値が更新される。例えば第１レイヤ４３の重みパラメータ群４３ａに含まれる重みパラメータが、その重みパラメータに対応する誤差勾配６６に応じて更新される。第２レイヤ４４の重みパラメータ群４４ａに含まれる重みパラメータが、その重みパラメータに対応する誤差勾配６４に応じて更新される。第３レイヤ４５の重みパラメータ群４５ａに含まれる重みパラメータが、その重みパラメータに対応する誤差勾配６２に応じて更新される。

学習装置１００は、このような機械学習を繰り返し実行することで、モデル４０の適切な重みパラメータの値を学習する。
誤差勾配を重みに反映させる際には、現在の重みから誤差勾配そのものを減算する代わりに、今回の入力データの影響を緩和するように誤差勾配が減算値に変換され、現在の重みから当該減算値が減算される。その際、ハイパーパラメータの１つである学習率が使用される。学習率が大きいと、直近の入力データの影響が重みに強く反映され、学習率が小さいと、直近の入力データの影響が重みに弱く反映されることになる。

図５は、誤差勾配に応じた重みの更新例を示す図である。ニューラルネットワークの予測誤差Ｅは、グラフ７０に示すように、重みの値ｗの関数とみなすことができる。誤差逆伝播法では、予測誤差Ｅが最小になる重みの値ｗが探索される。現在の重みの値ｗにおける予測誤差Ｅの誤差勾配に応じて、誤差勾配とは逆方向に重みの値ｗが変化する。誤差勾配が正の場合は重みの値ｗが小さくなり、誤差勾配が負の場合は重みの値ｗが大きくなる。

重みパラメータの１回当りの更新量（重み更新量）は、誤差勾配が大きい程大きくなる。予測誤差Ｅが最小に近づくと誤差勾配がなだらかとなり、重み更新量が少なくなる。なお誤差勾配に応じた重み更新量は、「０」以上の実数である学習率によって調整される。

ニューラルネットワークにおけるレイヤごとの重みパラメータが最小値にどの程度近づいているかは、レイヤごとに異なる。そのため、重み更新量もレイヤごとに異なる。そこで、１回当りの重み更新量が十分に少なくなったレイヤについては、誤差勾配の算出や重みパラメータの更新処理をスキップすることが考えられる。

例えば学習対象のニューラルネットワークとして、入力レイヤに近い方のレイヤは、既に学習済みのモデル（既存モデル）を用い、その既存モデルの後に新規のレイヤ（新規モデル）を追加する場合がある。例えば、学習装置１００は、学習済みの汎用的な画像認識モデルの後段に、新規モデルを接続することで、手書き文字の認識に特化した手書き文字認識モデルを生成する。

このように既存モデルと新規モデルとを組み合わせたモデルの機械学習を実施すると、既存モデル部分のレイヤについては、繰り返し実行される学習処理（イテレーション）１回当りの重み更新量が非常に少なくなる。重み更新量が少ないことが分かっている場合、重みパラメータの値の更新頻度を、例えば数回の学習処理の間に１回程度にすることで、処理を効率化することができる。

学習装置１００は、例えばレイヤの重みパラメータ群に含まれる各重みパラメータの値の更新量を要素に含むベクトル（重み更新量ベクトルΔｗ）のＬｐノルムに基づいて、該当レイヤの重み更新処理を実施するか否かを判断することができる。例えば学習装置１００は、Ｌｐノルムが所定の閾値Ｔ以下になったレイヤについては、数回の学習処理で１回だけ重み更新処理を行う。Ｌｐノルムについての詳細は後述する。

図６は、重み更新処理の実施状況の一例を示す図である。例えば第１レイヤ７１～第５レイヤ７５のモデルについて機械学習を行ったものとする。図６の例では、学習回数（何回目の学習か示す数値）ごとに、その学習で重み更新処理を行ったレイヤを丸印で示している。重み更新処理における重み更新量のＬｐノルムがＴより大きい場合には、白い丸印である。また、重み更新処理における重み更新量のＬｐノルムがＴ以下の場合には、黒い丸印である。「－」は、該当レイヤについての重み更新処理をスキップしたことを示している。

入力レイヤに近いレイヤが既存モデルから流用したものである場合、入力レイヤに近いほど、早い段階でΔｗのＬｐノルムがＴ以下となる。ΔｗのＬｐノルムがＴ以下となったレイヤでは、その後の所定回の学習において、重み更新処理がスキップされる。

次にモーメンタム法について説明する。モーメンタム法は勾配降下法における処理効率を向上させるものである。モーメンタム法を適用しない勾配降下法では、ｎ＋１回目の学習で使用する重みパラメータの値ｗ_n+1が、以下の式で表される。

ｗ_nは、ｎ回目の学習で使用した重みパラメータの値である。ηは学習率である。Ｌ_nは損失関数である。∂Ｌ_n／∂ｗ_nは誤差勾配∇Ｅである。モーメンタム法を適用する場合、重みパラメータの値ｗ_n+1の計算式が以下の式となる。

αはモーメンタム係数である。αは、例えば「０．９」程度の整数である。式（２）と式（３）とに基づいて、以下の式を導くことができる。

式（５）より、新しい重みパラメータの値ｗ_n+1は、前回の重みパラメータの値ｗ_nに対し、「ｗ_n－ｗ_n-1」にモーメンタム係数αを乗算した値の加算と、誤差勾配∇Ｅに学習率ηを乗算した値の減算とを行ったものとなる。式（５）の右辺第２項がモーメンタム項である。

図７は、モーメンタム法の適用の効果を示す図である。図７には、モーメンタム法を適用しない勾配降下法による重みパラメータの更新過程を示す模式図８１と、モーメンタム法を適用した勾配降下法による重みパラメータの更新過程を示す模式図８２とを示している。模式図８１，８２の楕円は、損失関数の一方の次元（縦方向）が、他方の次元（横方向）の次元よりも傾きが大きいことを表している。また楕円の中心が、損失関数の値を最小とするパラメータの位置である。学習ごとの重みパラメータの値の遷移が折れ線の矢印で表されている。

モーメンタム法を適用しない勾配降下法では、重みパラメータの値が、局所的な最適値に向かう谷底周辺での往復を繰り返し、損失関数が最小となる方向に辿り着くのに時間がかかる。その一方、モーメンタム法を適用すると、最新の勾配と過去の勾配とが同じ方向に向いている次元（図中横方向）の重みパラメータの更新量が大きくなる。その結果、重みパラメータの値の変化が、損失関数の値が最小となる方向へ加速され、効率よく学習結果が収束する。

ここで、モーメンタム法を適用した勾配降下法において、図６に示したような重み更新処理のスキップを実施すると、以下のような問題が生じる。
ある学習処理において重み更新処理をスキップすると、重みパラメータの値は更新されず、その前の学習処理における重みパラメータと同じ値となる。すると式（５）に示す「ｗ_n－ｗ_n-1」の値は「０」となってしまう。そのため、式（５）のままではモーメンタム項の効果が消えてしまう。

そこで、例えばｋ回（ｋは１以上の整数）スキップした場合は、式（５）の「ｗ_n－ｗ_n-1」を「ｗ_n－ｗ_n-k」に置き換えることが考えられる。これによりモーメンタム項が「０」とならず、モーメンタム法を適用する効果が表れる。ここでｋ回スキップというのは、ｋ＝１のときはスキップなしで重み更新処理を行い、ｋ＝２のときは学習処理を２回実行する間に、重み更新処理を１回スキップするものとする。

重み更新処理のスキップを考慮に入れた式は、以下の通りである。

以下、式（６）に基づいて重みパラメータを更新した場合の重みパラメータの値の推移について、図８、図９を参照して説明する。なお学習回数ｎのときの誤差勾配∇Ｅ_n＝∂Ｌ_n／∂ｗ_nは常に負の値で、初期値「－１」から前回の値に「０．９９」を掛けて減らしていくものとする。すなわち「∇Ｅ_n＝（－１）×（０．９９）ⁿ」とする。学習をスキップさせるのは重みパラメータの値の変動が小さい場合であるため、∇Ｅ_nは変動しないものとする。また、学習率はη＝０．１、モーメンタム係数α＝０．９、初期値ｗ₀＝０、ｖ_-1＝０とする。

図８は、重みパラメータの値の推移の第１の例を示す図である。図８の例は、重み更新処理のスキップ数ｋ＝２（２回に１回スキップ）とした場合の重みパラメータの値の遷移を示している。曲線８３ａは、重みパラメータの値の理想的な遷移を示している。曲線８３ｂは、式（５）によって、モーメンタム項の効果を反映させないまま学習させた場合の重みパラメータの値の遷移を示している。曲線８３ｃは、式（６）によって、モーメンタム項の効果を反映させて学習させた場合の重みパラメータの値の遷移を示している。

図９は、重みパラメータの値の推移の第２の例を示す図である。図９の例は、重み更新処理のスキップ数ｋ＝３（３回に１回スキップ）とした場合の重みパラメータの値の遷移を示している。曲線８４ａは、重みパラメータの値の理想的な遷移を示している。曲線８４ｂは、式（５）によって、モーメンタム項の効果を反映させないまま学習させた場合の重みパラメータの値の遷移を示している。曲線８４ｃは、式（６）によって、モーメンタム項の効果を反映させて学習させた場合の重みパラメータの値の遷移を示している。

図８、図９に示すように、式（６）を適用することにより、モーメンタム法の効果が表れ、理想的な遷移状況に近づくことが分かる。ただし、式（６）のままでは、式（６）を適用した場合の曲線８３ｃ，８４ｃは、理想的な曲線８３ａ，８４ａと乖離している。乖離の度合いは、スキップ数ｋが増加するほど大きくなる。

そこで学習装置１００は、例えば、式（６）のモーメンタム項に、ハイパーパラメータで１より大きな値の係数を乗算する。これにより、重みパラメータの値の遷移が理想に近づくように調整することができる。

なお、機械学習においてハイパーパラメータに設定する値を誤ると、モデルによる推論の精度を向上させることが難しくなる。そのため学習時に設定するハイパーパラメータの数は少ないことが好ましい。

そこで学習装置１００では、モーメンタム法で使用する過去の重みパラメータの値を近似式によって求め、モーメンタム法の効果の反映度合いを高める。以下に近似式の導出手順について説明する。

まず、∇Ｅ_n＝（∂Ｌ_n）／（∂ｗ_n）と置き、ｗ₀を定数とし、ｖ_-1は存在しないので「０」とする。この場合、ｖ₀とｗ₁は以下の式で表される。

式（７）、式（８）に基づいて、ｖ₁とｗ₂を以下の式で計算できる。

さらに式（９）、式（１０）に基づいて、ｖ₂とｗ₃を以下の式で計算できる。

このように連鎖的に計算することができ、ｖ_n-1とｗ_nを以下で表すことができる。

ここで、スキップ数ｋ＝２の場合（２回に１回スキップ）を考える。ｗ₀は定数とし、ｗ₁とｗ₂はスキップせずに計算されるものとする。そして、ｗ₃の重み値の計算がスキップされたときに、ｗ₄を近似計算で求める場合を想定する。この場合、ｗ₁は式（８）で表され、ｗ₂は式（１０）で表される。ｗ₃の計算はスキップされており、ｗ₄は一般化した式（１４）に基づいて、以下の式で計算できる。

式（１５）の∇Ｅ₂はｗ₂から求めることができる。∇Ｅ₃はｗ₃がスキップされているので求められない。
ここで、ｗ₂－ｗ₀，ｗ₄－ｗ₂を計算すると、それぞれ以下のようになる。

よってｗ₄は、以下の式で表される。

ここで、基本的にスキップするのは学習量が小さいためであるため、∇Ｅ₁≒∇Ｅ₂≒∇Ｅ₃と仮定することができる。そうすると式（１８）を以下のように近似できる。

よってｗ₄は２個前のｗ₂と４個前のｗ₀と∇Ｅ₂を用いて近似することができる。このスキップ数ｋ＝２の場合の近似を一般的な形で表すと、以下の式となる。

式（２０）を用いて、図８に示したグラフと同様の条件で重みパラメータの値の曲線を表したものが、図１０に示すグラフである。
図１０は、重みパラメータの値の推移の第３の例を示す図である。図１０の例は、重み更新処理のスキップ数ｋ＝２（２回に１回スキップ）とした場合において、近似式を用いて算出された重みパラメータの値の遷移を示している。曲線８３ｄは、式（２０）によって近似計算を行った場合の重みパラメータの値の遷移を示している。曲線８３ｄは、理想的な遷移を表す曲線８３ａとほぼ重なっている。

このように、式（２０）を用いて近似を行うことで、学習処理の２回に１回、重み更新処理をスキップしたとしても、重み値パラメータの値を高精度に計算できる。
次に、スキップ数ｋ＝３の場合についての近似計算について説明する。スキップ数ｋ＝２の場合と同様にｗ₀は定数とする。ｗ₁とｗ₂とｗ₃はスキップせずに計算されるものとする。そして、ｗ₄とｗ₅の重み更新処理の計算がスキップされたときに、ｗ₆を近似計算で求める場合を想定する。この場合、ｗ₁は式（８）で表され、ｗ₂は式（１０）で表され、ｗ₃は式（１２）で表される。ｗ₄とｗ₅の計算はスキップされる。ｗ₆は、一般化した式（１４）に基づいて、以下の式で計算できる。

式（２１）の∇Ｅ₃はｗ₃から求めることができる。∇Ｅ₄と∇Ｅ₅はｗ₄とｗ₅がスキップされているので求められない。
ここで、ｗ₃－ｗ₀，ｗ₆－ｗ₃を計算すると、それぞれ以下のようになる。

よってｗ₆は、以下の式で表される。

ここで、基本的にスキップするのは学習量が小さいためであるため、∇Ｅ₁≒∇Ｅ₂≒∇Ｅ₃≒∇Ｅ₄≒∇Ｅ₅と仮定することができる。そうすると式（２４）を以下のように近似できる。

よってｗ₆は３個前のｗ₃と６個前のｗ₀と∇Ｅ₃を用いて近似することができる。このスキップ数ｋ＝３の場合の近似を一般的な形で表すと、以下の式となる。

式（２６）を用いて、図９に示したグラフと同様の条件で重みパラメータの値の曲線を表したものが、図１１に示すグラフである。
図１１は、重みパラメータの値の推移の第４の例を示す図である。図１１の例は、重み更新処理のスキップ数ｋ＝３（３回に１回スキップ）とした場合において、近似式を用いて算出された重みパラメータの値の遷移を示している。曲線８４ｄは、式（２６）によって近似計算を行った場合の重みパラメータの値の遷移を示している。曲線８４ｄは、理想的な遷移を表す曲線８４ａとほぼ重なっている。

なお図１１の例では、学習回数ｎのときの誤差勾配∇Ｅ_n＝∂Ｌ_n／∂ｗ_nは、初期値「－１」から前回の値に「０．９９」を掛けて減らしている。これは、前回の学習と今回の学習とにおける誤差勾配∇Ｅ_nの変化が少なければ、近似計算を行った場合の曲線が理想曲線とほぼ一致することを示している。誤差勾配∇Ｅ_nの絶対値の減少傾向がより強い場合の例を図１２に示す。

図１２は、重みパラメータの値の推移の第５の例を示す図である。図１２の例は、重み更新処理のスキップ数ｋ＝３（３回に１回スキップ）とした場合において、「∇Ｅ_n＝（－１）×（０．８０）ⁿ」としたときの、近似式を用いて算出された重みパラメータの値の遷移を示している。曲線８４ｅは、式（６）によって、モーメンタム項の効果を反映させて学習させた場合の重みパラメータの値の遷移を示している。曲線８４ｆは、式（２６）によって近似計算を行った場合の重みパラメータの値の遷移を示している。曲線８４ｆは、理想的な遷移を表す曲線８４ａより下にずれているものの、理想に近い曲線となっている。

次に、スキップ数ｋが任意の整数の場合に適用可能な近似式について説明する。今までの考え方と同様にｗ_nはｋ個前のｗ_n-kと２ｋ個前のｗ_n-2kと∇Ｅ_n-kを使って近似することができる。スキップ数が任意のｋの場合の近似式は、以下の式となる。

式（２７）は、等比級数の和の公式を用いて以下のように変形できる。

このように、ｗ_nは、スキップ数ｋが任意の値であっても、式（２８）でｗ_n-kとｗ_n-2kと∇Ｅ_n-kから近似計算で求めることが可能である。また、α＝０とすれば、モーメンタム法を適用しない勾配降下法の近似も可能である。

次に、重み更新処理のスキップとモーメンタム法とを組み合わせた機械学習を行うための学習装置１００の機能について説明する。
図１３は、学習装置の機能の一例を示すブロック図である。学習装置１００は、モデル記憶部１１０、訓練データ記憶部１２０、重み情報記憶部１３０、スキップ情報記憶部１４０、および機械学習部１５０を有する。モデル記憶部１１０、訓練データ記憶部１２０、重み情報記憶部１３０、およびスキップ情報記憶部１４０は、学習装置１００が有するメモリ１０２またはストレージ装置１０３の記憶領域の一部を用いて実現される。機械学習部１５０は、例えば機械学習の処理手順が記述されたプログラムをプロセッサ１０１に実行させることで実現することができる。

モデル記憶部１１０は、今回の深層学習によって学習するモデルを記憶する。モデルは、図３に示すような多層のニューラルネットワークである。モデル記憶部１１０には、学習対象のモデルが予め格納され、機械学習部１５０による学習によって、モデルの重みパラメータが更新される。

訓練データ記憶部１２０は、今回の深層学習に使用する訓練データを記憶する。訓練データは、それぞれ説明変数の値と正解のラベルとを対応付けた複数のレコードを含む。
重み情報記憶部１３０は、学習を１サイクル実行するごとに、その学習で算出された各重みパラメータの値を記憶する。記憶された重みパラメータの値は、モーメンタム法による重みパラメータの値の計算に使用される。

スキップ情報記憶部１４０は、レイヤごとに、そのレイヤの重み更新処理のスキップを行うか否かを関する情報を記憶する。学習におけるｂａｃｋｗａｒｄ処理において、スキップ情報でスキップすることが示されているレイヤの重みパラメータ群の更新は抑止される。

機械学習部１５０は、モデル記憶部１１０に格納されたモデルの適切な重みパラメータの値を、訓練データ記憶部１２０に格納された訓練データを用いて学習する。機械学習部１５０は、学習において、重みパラメータの値の更新量が少ないレイヤについては、スキップ数で示された回数の学習で１回だけ重み更新処理を行う。例えばスキップ数が２回に設定されたレイヤであれば、機械学習部１５０は、学習処理２回当りに１回だけ、該当レイヤの重み更新処理を行う。また機械学習部１５０は、モーメンタム法を用いて重み更新処理を行う。前回の学習において重み更新処理をスキップしたレイヤの今回の重み更新処理については、式（２８）を用いて、重みパラメータの新たな値を計算する。

次に、重み情報記憶部１３０とスキップ情報記憶部１４０とに格納されるデータについて、具体的に説明する。
図１４は、重み情報記憶部の一例を示す図である。重み情報記憶部１３０には、例えば重み管理テーブル１３１が格納される。重み管理テーブル１３１には、レイヤごとに、学習によって得られた重みパラメータの値が設定される。重みパラメータの値は、学習回数に対応づけて設定されている。各重みパラメータの値は、対応する学習回数の学習が終了した時点での値である。図１４の例では、重みパラメータの値ｗに、３つの数値を添え字として付与している。１つめの数値はレイヤの番号を示しており、２つ目の数値はレイヤ内での重みパラメータの番号を示しており、３つ目の数値は学習回数を示している。

図１５は、スキップ情報記憶部の一例を示す図である。スキップ情報記憶部１４０には、例えばスキップ管理テーブル１４１が格納される。スキップ管理テーブル１４１には、レイヤごとにスキップ有無、およびスキップ回数が設定されている。スキップ有無は、対応するレイヤの重み更新処理のスキップを実施するか否かを示す情報である。スキップを実施する場合は「スキップあり」と設定され、スキップを実施しない場合は「スキップなし」と設定される。スキップ有無の初期値は「スキップなし」である。スキップ回数は、該当レイヤで重み更新処理を連続してスキップした回数である。スキップ回数の初期値は「０」である。

機械学習部１５０は、重み情報記憶部１３０とスキップ情報記憶部１４０を用いて、モデルの学習を行う。
次に、図１６、図１７を参照し、学習処理の手順を詳細に説明する。

図１６は、学習処理の手順を示すフローチャートの前半である。以下、図１６に示す処理をステップ番号に沿って説明する。
［ステップＳ１０１］機械学習部１５０は、学習回数カウンタｉに初期値「０」を設定する（ｉ＝０）。

［ステップＳ１０２］機械学習部１５０は、スキップ数ｋと閾値Ｔとを決定する。閾値Ｔは、重み更新処理をスキップするか否かの判定に用いる実数である。例えば機械学習部１５０には、予めユーザによってスキップ数ｋと閾値Ｔそれぞれに対応付けて設定された値を、スキップ数ｋと閾値Ｔとに決定する。

［ステップＳ１０３］機械学習部１５０は、次回の学習において重み更新処理をスキップするか否かの設定が未設定のレイヤを１つ選択する。
［ステップＳ１０４］機械学習部１５０は、選択したレイヤがｉ回目（前回）の学習において重み更新処理がスキップされているか否かを判断する。例えば機械学習部１５０は、スキップ管理テーブル１４１において該当レイヤのスキップ回数が「１」以上の場合、重み更新処理がスキップされていると判断する。機械学習部１５０は、重み更新処理がスキップされた場合、処理をステップＳ１０９に進める。また機械学習部１５０は、重み更新処理がスキップされていない場合、処理をステップＳ１０５に進める。

なお機械学習部１５０は、学習回数カウンタｉが２ｋに以下の間は、すべてのレイヤについてステップＳ１０４の判断をＮＯとして、処理をステップＳ１０９に進める。これにより、スキップをしたときのモーメンタム法の近似計算ができるようになるまでは、スキップ有無を初期状態「スキップなし」のままとすることができる。

［ステップＳ１０５］機械学習部１５０は、選択したレイヤのΔｗのＬｐノルムを算出する（ｐは１以上の整数である）。Δｗは、選択したレイヤのノードに入力されるデータの重み値パラメータの値の更新量を要素する重み更新量ベクトルである。重み値パラメータの値の更新量は、更新前の値と更新後の値との差分に相当する。選択したレイヤの重みパラメータの値の更新量を「Δｗ₁，Δｗ₂，・・・，Δｗ_n」とした場合、重み更新量ベクトルΔｗは「Δｗ＝（Δｗ₁，Δｗ₂，・・・，Δｗ_n）」である。

ΔｗのＬｐノルムは、以下の式で与えられる。

例えばΔｗのＬ１ノルムは以下の通りである。

またΔｗのＬ２ノルムは以下の通りである。

例えば設定された閾値ＴがΔｗのＬ２ノルムの閾値である場合、機械学習部１５０は、ΔｗのＬ２ノルムを計算する。
［ステップＳ１０６］機械学習部１５０は、ΔｗのＬｐノルムが閾値Ｔ以下か否かを判断する。機械学習部１５０は、ΔｗのＬｐノルムが閾値Ｔ以下であれば、処理をステップＳ１０８に進める。また機械学習部１５０は、ΔｗのＬｐノルムが閾値より大きければ、処理をステップＳ１０７に進める。

［ステップＳ１０７］機械学習部１５０は、選択したレイヤをスキップなしに設定する。例えば機械学習部１５０は、スキップ管理テーブル１４１内の選択したレイヤに対応するレコードに、「スキップなし」を設定する。機械学習部１５０は、その後、処理をステップＳ１０９に進める。

［ステップＳ１０８］機械学習部１５０は、選択したレイヤをスキップありに設定する。例えば機械学習部１５０は、スキップ管理テーブル１４１内の選択したレイヤに対応するレコードに、「スキップあり」を設定する。

［ステップＳ１０９］機械学習部１５０は、スキップの有無の設定が未設定のレイヤがあるか否かを判断する。機械学習部１５０は、未設定のレイヤがある場合、処理をステップＳ１０３に進める。また機械学習部１５０は、すべてのレイヤに対してスキップの有無の設定が完了した場合、処理をステップＳ１１０に進める。

［ステップＳ１１０］機械学習部１５０は、学習回数カウンタｉに１を加算（ｉ＝ｉ＋１）し、処理をステップＳ１２１（図１７参照）に進める。
図１７は、学習処理の手順を示すフローチャートの後半である。以下、図１６に示す処理をステップ番号に沿って説明する。

［ステップＳ１２１］機械学習部１５０は、訓練データ記憶部１２０から訓練データを読み出す。
［ステップＳ１２２］機械学習部１５０は、読み出した訓練データを用いてＦｏｒｗａｒｄ処理を実行する。すなわち機械学習部１５０は、訓練データに含まれる訓練用の入力データを、モデルの入力レイヤのノードへの入力として、モデルに示されるニューラルネットワークに沿った計算を行い、出力レイヤからの出力値を得る。

［ステップＳ１２３］機械学習部１５０は、出力に近い方から順にレイヤを１つ選択する。
［ステップＳ１２４］機械学習部１５０は、スキップ管理テーブル１４１を参照し、選択したレイヤのスキップの有無が「スキップあり」に設定されているか否かを判断する。機械学習部１５０、スキップありに設定されている場合、処理をステップＳ１２６に進める。また機械学習部１５０は、スキップなしに設定されている場合、処理をステップＳ１２５に進める。

［ステップＳ１２５］機械学習部１５０は、非近似のモーメンタム法（式（２）、式（３））により、選択したレイヤのノードに入力されるデータに対する重みパラメータそれぞれの更新後の値ｗ_iを、計算する。機械学習部１５０は、その後、処理をステップＳ１３０に進める。

［ステップＳ１２６］機械学習部１５０は、選択したレイヤについてｋ－１回スキップしたか否かを判断する。例えば機械学習部１５０は、スキップ管理テーブル１４１において、選択したレイヤのスキップ回数がｋ－１回に達している場合には、ｋ－１回スキップしたと判断する。機械学習部１５０は、ｋ－１回スキップした場合、処理をステップＳ１２８に進める。また機械学習部１５０は、スキップ回数がｋ－１回に満たない場合、処理をステップＳ１２７に進める。

［ステップＳ１２７］機械学習部１５０は、選択したレイヤの重み更新処理をスキップし、スキップ管理テーブル１４１における該当レイヤのスキップ回数をカウントアップする。機械学習部１５０は、その後、処理をステップＳ１３１に進める。

［ステップＳ１２８］機械学習部１５０は、近似処理を用いたモーメンタム法（式（２８））により、選択したレイヤのノードに入力されるデータに対する重みパラメータそれぞれの更新後の値ｗ_iを計算する。なお機械学習部１５０は、式（６）のモーメンタム項（右辺第２項）に１以上の係数（図８、図９に示すハイパーパラメータでの調整量に応じた値）を乗算した式を用いて重みパラメータそれぞれの更新後の値ｗ_iを計算してもよい。

［ステップＳ１２９］機械学習部１５０は、スキップ管理テーブル１４１における選択したレイヤのスキップ回数を「０」にリセットする。
［ステップＳ１３０］機械学習部１５０は、選択したレイヤの重みパラメータの値を、ステップＳ１２５またはステップＳ１２８で算出した値に更新する。

［ステップＳ１３１］機械学習部１５０は、すべてのレイヤを選択したか否かを判断する。機械学習部１５０は、未選択のレイヤがある場合、処理をステップＳ１２３に進める。また機械学習部１５０は、すべてのレイヤが選択済みとなった場合、処理をステップＳ１３２に進める。

［ステップＳ１３２］機械学習部１５０は、学習回数カウンタｉが予め設定された実行学習回数Ｎ（Ｎは１以上の整数）未満か否かを判断する。機械学習部１５０は、学習回数カウンタｉがＮ未満であれば、処理をステップＳ１０３（図１６参照）に進める。また機械学習部１５０は、学習回数カウンタｉがＮに達していれば学習を終了する。

このようにして、一部のレイヤにおいて重みパラメータの値の更新処理をスキップして誤差勾配が求められていなくても、モーメンタム法の近似により、精度劣化を防いだまま高速な処理が可能となる。

〔その他の実施の形態〕
第２の実施の形態ではΔｗのノルムに基づいて、重み更新処理のスキップの要否を判断しているが、Δｗの要素の絶対値｜Δｗ₁｜，｜Δｗ₂｜，・・・，｜Δｗ_n｜のそれぞれと閾値Ｔとを比較して、重み更新処理のスキップの要否を判断してもよい。例えば学習装置１００は、Δｗの要素の絶対値｜Δｗ₁｜，｜Δｗ₂｜，・・・，｜Δｗ_n｜のすべてが閾値Ｔ以下の場合に、重み更新処理をスキップすると判断する。

また第２の実施の形態では、学習回数が実行学習回数Ｎに達するまで学習処理を繰り返しているが、機械学習部１５０は、出力レイヤにおけるΔｗのＬｐノルムが所定値以下になった場合、学習処理を終了することもできる。

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

１訓練データ
２モデル
１０学習装置
１１記憶部
１２処理部

Claims

コンピュータに、
複数のレイヤを有するモデルに対して繰り返し実行される学習処理において、前記複数のレイヤのうちの一部の更新抑止レイヤのパラメータの値の更新処理を、前記学習処理ｋ（ｋは２以上の整数）回に１回だけ実行し、
前記更新抑止レイヤの前記パラメータの値の更新処理を実行する場合、ｋ回前の前記学習処理で計算された前記パラメータの値と、２ｋ回前の前記学習処理で計算された前記パラメータの値とを用いて、モーメンタム法を適用した勾配降下法によって、更新後の前記パラメータの値を算出する、
処理を実行させる学習プログラム。
更新後の前記パラメータの値の算出では、前記パラメータの値の更新処理を実行していない前記学習処理における誤差勾配を、前記パラメータの値の更新処理を実行している前記学習処理における誤差勾配と同じ値に近似することで、更新後の前記パラメータの値を算出する、
請求項１記載の学習プログラム。
更新後の前記パラメータの値の算出では、ｋ回前の前記学習処理で計算された前記パラメータの値と２ｋ回前の前記学習処理で計算された前記パラメータの値との差分に所定の係数を乗算する項を、モーメンタム法を適用することで追加されるモーメンタム項として含む計算式により、更新後の前記パラメータの値を算出する、
請求項１記載の学習プログラム。
前記コンピュータに、さらに、
前記複数のレイヤそれぞれについて、前回の更新処理における前記パラメータの更新前の値と更新後の値との差分を算出し、算出した差分に基づいて、前記更新抑止レイヤとするか否かを決定する、
処理を実行させる請求項１ないし３のいずれかに記載の学習プログラム。
一のレイヤの複数のパラメータそれぞれについて、前回の更新処理における更新前の値と更新後の値との差分を求め、前記複数のパラメータそれぞれの差分を要素とするベクトルのノルムが所定の閾値以下の場合、前記一のレイヤを前記更新抑止レイヤに決定する、
請求項４記載の学習プログラム。
コンピュータが、
複数のレイヤを有するモデルに対して繰り返し実行される学習処理において、前記複数のレイヤのうちの一部の更新抑止レイヤのパラメータの値の更新処理を、前記学習処理ｋ（ｋは２以上の整数）回に１回だけ実行し、
前記更新抑止レイヤの前記パラメータの値の更新処理を実行する場合、ｋ回前の前記学習処理で計算された前記パラメータの値と、２ｋ回前の前記学習処理で計算された前記パラメータの値とを用いて、モーメンタム法を適用した勾配降下法によって、更新後の前記パラメータの値を算出する、
学習方法。
複数のレイヤを有するモデルに対して繰り返し実行される学習処理において、前記複数のレイヤのうちの一部の更新抑止レイヤのパラメータの値の更新処理を、前記学習処理ｋ（ｋは２以上の整数）回に１回だけ実行し、前記更新抑止レイヤの前記パラメータの値の更新処理を実行する場合、ｋ回前の前記学習処理で計算された前記パラメータの値と、２ｋ回前の前記学習処理で計算された前記パラメータの値とを用いて、モーメンタム法を適用した勾配降下法によって、更新後の前記パラメータの値を算出する処理部、
を有する学習装置。