JP2022045615A

JP2022045615A - 演算装置及び演算方法

Info

Publication number: JP2022045615A
Application number: JP2020151296A
Authority: JP
Inventors: 大輔宮下; Daisuke Miyashita; 明香眞木; Meiko Maki
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-03-22
Also published as: US20220076122A1

Abstract

【課題】機械学習を効率的に行うことが可能な演算装置及び演算方法を提供する。【解決手段】一つの実施形態によれば、演算装置は、不揮発性の第１メモリと、第２メモリと、コントローラとを備える。第１メモリは、機械学習の対象となるモデルを記憶する。第２メモリは、前記第１メモリより記憶容量が小さい。コントローラは、前記第１メモリに記憶された前記モデルに学習データを入力して得られた損失値に基づき前記モデルの第１パラメータを更新する学習処理を実行し、更新前後の前記第１パラメータの差分を示す累積更新情報を前記第２メモリに記憶する。また、コントローラは、前記第１メモリに記憶された前記モデルから読み出した前記第１パラメータに前記第２メモリに記憶された前記累積更新情報を反映した第２パラメータを用いて前記学習処理を実行し、当該第２パラメータを更新した第３パラメータと前記第１パラメータとの差分を前記累積更新情報として前記第２メモリに記憶する。【選択図】図４

Description

本実施形態は、演算装置及び演算方法に関する。

従来、ディープラーニング等の機械学習によりモデルの作成が行われている。機械学習を行う際には、モデルを保存しておくためのメモリが必要となる。また、機械学習をより高速に行うため、モデルの保存用にＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）等の高速なメモリを使用することが行われている。

近年、モデルの大規模化が進んでおり、それに伴い保存用メモリの大容量化が求められる。そのため、大容量化が容易なＮＡＮＤ型のフラッシュメモリをモデルの保存用として利用することが想定される。しかし、機械学習によってパラメータが更新される度にデータの書き換えが発生するため、ＮＡＮＤ型のフラッシュメモリのエンデュランス（書き換え回数）を考慮する必要がある。

特開平１０－０５５３４６号公報特開２０００－３０５５８９号公報特表２０１７－５１９２８２号公報特開平１１－１５９３８７号公報

一つの実施形態は、機械学習を効率的に行うことが可能な演算装置及び演算方法を提供することを目的とする。

一つの実施形態によれば、演算装置は、不揮発性の第１メモリと、第２メモリと、コントローラとを備える。第１メモリは、機械学習の対象となるモデルを記憶する。第２メモリは、前記第１メモリより記憶容量が小さい。コントローラは、前記第１メモリに記憶された前記モデルに学習データを入力して得られた損失値に基づき前記モデルの第１パラメータを更新する学習処理を実行し、更新前後の前記第１パラメータの差分を示す累積更新情報を前記第２メモリに記憶する。また、コントローラは、前記第１メモリに記憶された前記モデルから読み出した前記第１パラメータに前記第２メモリに記憶された前記累積更新情報を反映した第２パラメータを用いて前記学習処理を実行し、当該第２パラメータを更新した第３パラメータと前記第１パラメータとの差分を前記累積更新情報として前記第２メモリに記憶する。

図１は、実施形態に係る学習システムの構成の一例を示す模式的な図である。図２は、図１の第１メモリが記憶するモデルの構成を模式的に示す図である。図３は、実施形態に係るコントローラの機能的な構成の一例を示す模式的な図である。図４は、実施形態に係るコントローラの動作を説明するための図である。図５は、実施形態のコントローラが行う学習処理の一例を示すフローチャートである。図６は、実施形態に係るモデルの更新回数と精度との関係を説明するための図である。

以下に添付図面を参照して、実施形態に演算装置及び演算方法を詳細に説明する。なお、これらの実施形態により本発明が限定されるものではない。

図１は、実施形態に係る演算装置１を含んだ学習システムの構成の一例を示す模式的な図である。学習システムは、演算装置１とホスト５とを有する。演算装置１は、ホスト５と接続可能に構成されている。

ここで、ホスト５は、例えばパーソナルコンピュータやサーバ等の情報処理装置である。ホスト５は、ＣＰＵ（Central Processing Unit）等のプロセッサ（図示せず）の他、記憶装置５１を備える。

記憶装置５１は、例えばＨＤＤ（Hard Disk Drive）等で実現され、多数の学習データ５１ａを記憶する。学習データ５１ａは、後述するモデル１１を機械学習（以下単に学習ともいう）するためのデータセットである。学習データ５１ａは、例えば、モデル１１に入力する各種の入力データと、当該入力データに対応して出力される出力データと比較するための教師データとを含む。なお、学習の対象となる分野や事象は特に問わないものとする。

演算装置１は、第１メモリ１０と、第２メモリ２０と、コントローラ３０とを備える。第１メモリ１０、第２メモリ２０、及びコントローラ３０は、バス等により電気的に接続される。

第１メモリ１０は、例えばＮＡＮＤ型のフラッシュメモリ（以下、ＮＡＮＤメモリとも称する）や、ＮＡＮＤメモリを備えるＳＳＤ（Solid State Drive）等の不揮発性のメモリで構成され、学習の対象となるモデル１１を記憶する。モデル１１は、少なくとも１つの隠れ層（中間層）を有する多層パーセプトロン（Multi-Layer Perceptron：ＭＬＰ）等のニューラルネットワークの構成を有している（図２参照）。

第２メモリ２０は、例えばＤＲＡＭやＳＲＡＭ等のメモリで構成される。本実施形態では、第２メモリ２０は、モデル１１を学習する際の作業メモリとして使用される。なお、本実施形態では、第２メモリ２０の記憶容量は、第１メモリ１０よりも小さいものとなっている。

コントローラ３０は、ＣＰＵ３１と、ＲＯＭ３２と、ＲＡＭ３３と、ＨＯＳＴＩ／Ｆ３４と、第１メモリＩ／Ｆ３５と、第２メモリＩ／Ｆ３６とを有する。これらの各部は、例えばバス等を介して、互いに通信可能に接続される。

ＣＰＵ３１は、コントローラ３０及び演算装置１を制御するプロセッサの一例である。ＣＰＵ３１は、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＦＰＧＡ（field-programmable gate array）、又はＡＳＩＣ（application specific integrated circuit）等であってもよい。

ＲＯＭ３２は、各種プログラムを記憶する。ＲＡＭ３３は、バッファ、あるいはＣＰＵ３１のワークエリアとして使用されるメモリである。ＣＰＵ３１は、ＲＯＭ３２に記憶されＲＡＭ３３に展開されたプログラムに従って動作することによって、各種の処理を実行する。

ＨＯＳＴＩ／Ｆ３４は、ＣＰＵ３１による制御の下で、ホスト５との間のデータ転送を実行する。第１メモリＩ／Ｆ３５は、ＣＰＵ３１による制御の下で、第１メモリ１０との間のデータ転送を実行する。第２メモリＩ／Ｆ３６は、ＣＰＵ３１による制御の下で、第２メモリ２０との間のデータ転送を実行する。

上述の構成において、演算装置１（具体的にはコントローラ３０）は、学習データ５１ａを用いることで、第１メモリ１０に記憶されたモデル１１を学習する学習処理を実行する。具体的には、コントローラ３０は、第１メモリ１０に記憶されたモデル１１からパラメータを読み出し、そのモデル１１に学習データ５１ａを入力して得られた出力値と正解値（教師データ）との相違度を表す損失値に基づいて、パラメータを更新する学習処理を実行する。ここで、モデル１１は、例えば図２に示すようなニューラルネットワークによって構成される。

図２は、第１メモリ１０が記憶するモデル１１の構成を模式的に示す図である。図２に示すように、モデル１１は、入力層１１１、中間層（隠れ層）１１２、及び出力層１１３を含むニューラルネットワークで構成される。ここでは、入力層１１１～出力層１１３の層数がＬ層（但し、Ｌ≧３）であるとしている。

各層は複数のノードＮによって構成される。また、層と層との間はノードＮ間の結合によって接続され、その接続の強さを示す重みがパラメータＷによって規定される。例えば、パラメータＷは層毎に多次元配列で表現される。なお、第１メモリ１０に記憶されたばかりの初期状態のモデル１１では、パラメータＷはランダムな値（乱数）となっている。後述する学習処理では、勾配降下法等の手法を用いることでパラメータＷの値を調整するための演算が行われる。

ところで、ディープラーニングによって生成されるモデル１１ではパラメータＷの数が膨大となるため、モデル１１を記憶する記憶容量も大容量なものが必要となる。そのため、本実施形態では、第１メモリ１０の記憶容量を、第２メモリ２０よりも大容量なものとしている。かかる構成とすることで、第１メモリ１０は、ディープラーニング等によって生成される大規模なモデルを記憶することが可能となっている。

一方、本実施形態では、第２メモリ２０は、モデル１１を学習する際の作業メモリとして使用される。具体的には、第２メモリ２０は、第１メモリ１０から読み出されたパラメータＷと、更新後のパラメータＷとの差分値を示す情報（以下、累積更新情報ともいう）を記憶する。

なお、図１では、第２メモリ２０とコントローラ３０とを別体としたが、コントローラ３０が第２メモリ２０を内蔵する形態としてもよい。また、ホスト５が演算装置１を内蔵する形態としてもよい。

次に、コントローラ３０が有する機能的な構成について説明する。図３は、実施形態に係るコントローラ３０の機能的な構成の一例を示す模式的な図である。

図３に示すように、コントローラ３０は、学習処理部３１１と、圧縮伸張部３１２と、更新部３１３とを備える。学習処理部３１１、圧縮伸張部３１２、及び更新部３１３のそれぞれの機能は、例えば、ＣＰＵ３１がＲＯＭ３２に記憶されたプログラムを実行することによって実現される。また、学習処理部３１１、圧縮伸張部３１２、及び更新部３１３のそれぞれの機能は、例えばＣＰＵ３１とホスト５のプロセッサとの協働によって実現されてもよい。

学習処理部３１１は、ホスト５の記憶装置５１に記憶された学習データ５１ａを用いて、第１メモリ１０に記憶されたモデル１１の学習処理を実行する。具体的には、学習処理部３１１は、第２メモリ２０が記憶する累積更新情報を更新しながら、第１メモリ１０に記憶されたモデル１１のパラメータを調整する学習処理を実行する。なお、学習処理部３１１が行う学習処理の詳細については後述する。

圧縮伸張部３１２は、累積更新情報のデータ量を圧縮する圧縮処理と、圧縮された累積更新情報を伸張する伸張処理とを実行する。具体的には、圧縮伸張部３１２は、学習処理部３１１と協働することで、第２メモリ２０に累積更新情報が記憶される際に、当該累積更新情報のデータ量を圧縮して第２メモリ２０に記憶する。また、圧縮伸張部３１２は、学習処理部３１１や更新部３１３と協働することで、第２メモリ２０から累積更新情報が読み出される際に、累積更新情報を伸張して出力する。

圧縮方法は、特に問わず公知の技術を用いることが可能である。例えば、圧縮伸張部３１２は、ハフマン符号化等の可逆圧縮方法を用いて累積更新情報を圧縮してもよい。この場合、圧縮伸張部３１２は、圧縮方法に対応する伸張方法を用いて累積更新情報の伸張を行うものとする。

また、圧縮方法は、非可逆の圧縮方法であってもよい。例えば、圧縮伸張部３１２は、学習処理部３１１と協働することで、累積更新情報で表される差分値のうち、重要度の低い差分値をゼロ等に無効化するプルーニングを行ってもよい。この場合、圧縮伸張部３１２は、累積更新情報によって表される差分値の絶対値が閾値以上となるもの残し、残りをゼロ等とする無効化処理を行ってもよい。また、例えば、圧縮伸張部３１２は、累積更新情報によって表される差分値の絶対値が小さいものから順に、所定個数分や所定の割合分の差分値を無効化する処理を行ってもよい。そして、圧縮伸張部３１２は、無効化処理を施した累積更新情報を圧縮行格納方式（Compressed Sparse Row）等を用いて圧縮することで、累積更新情報のデータ量を圧縮する。

非可逆圧縮の他の例として、累積更新情報で表される差分値を表現するビット数を減らす量子化を行うことで、累積更新情報のデータ量を圧縮してもよい。例えば、累積更新情報が単精度浮動小数（３２ｂｉｔ）で表される場合、圧縮伸張部３１２は、当該累積更新情報を８ｂｉｔの整数等で表すことで、累積更新情報のデータ量を圧縮する。

このように、演算装置１では、累積更新情報のデータ量を圧縮した状態で第２メモリ２０に記憶することができるため、第２メモリ２０の記憶容量を有効に使用することができる。これにより、演算装置１では、多数の累積更新情報を第２メモリ２０に記憶することができるため、パラメータＷの数が膨大となるディープラーニング等のモデル１１に対応することができる。

なお、上述した非可逆圧縮の例であるプルーニングを用いて累積更新情報を圧縮した場合、圧縮伸張部３１２は、圧縮行格納方式等で圧縮方式に応じた伸張方法で累積更新情報の伸張処理を実行する。また、上述した非可逆圧縮の例である量子化を用いて累積更新情報を圧縮した場合、圧縮伸張部３１２は、元のビット数に戻すための伸張処理を実行する。例えば、圧縮伸張部３１２は、８ｂｉｔの整数に圧縮した累積更新情報のビット数を、単精度浮動小数に変換（キャスト）するための伸張処理を実行する。また、プルーニング及び量子化の何れか又は両方を用いて圧縮した後、上述したハフマン符号化等の可逆圧縮で圧縮する形態としてもよい。この場合、圧縮伸張部３１２は、累積更新情報に施した可逆圧縮を伸張する伸張処理をあわせて実行することになる。

更新部３１３は、第２メモリ２０に記憶された更新情報を第１メモリ１０に記憶されたモデル１１に反映することで、モデル１１が記憶するパラメータＷを更新する更新処理を実行する。具体的には、更新部３１３は、学習処理部３１１と協働することで、モデル１１のパラメータＷを所定のタイミングで更新する。

次に、図４を参照して、上述した学習処理部３１１、圧縮伸張部３１２、及び更新部３１３の動作について説明する。図４は、コントローラ３０の動作を説明するための図である。図４では、学習処理に伴うデータの流れを模式的に示している。

まず、学習処理部３１１は、ホスト５の記憶装置５１から読み出した学習データ５１ａを第１メモリ１０に記憶されたモデル１１に入力し、モデル１１の出力値と正解値との差異を算出する。これにより、学習処理部３１１は、現在のパラメータＷでの損失値（予測精度）を評価するフォワード処理を実行する。学習処理部３１１は、フォワード処理で得られた評価結果に基づき、モデル１１の各層のパラメータＷを出力層１１３側から入力層１１１側にかけて順次更新するバックワード処理を開始する。

バックワード処理では、学習処理部３１１は、第１メモリ１０に記憶されたモデル１１から学習処理の対象となる層（以下、対象層ともいう）を選択し、対象層に係る第１パラメータＷ１を読み出す。具体的には、学習処理部３１１は、出力層１１３から入力層１１１にかけて層毎に対象層を選択する。

続いて、学習処理部３１１は、対象層に対応する累積更新情報ｄＷ２が第２メモリ２０に記憶されている場合、該当する累積更新情報ｄＷ２を第２メモリ２０から読み出す。累積更新情報ｄＷ２については後述する。ここで、圧縮伸張部３１２は、第２メモリ２０から累積更新情報ｄＷ２が読み出される際に、累積更新情報ｄＷ２に伸張処理Ａ２１を施す。

次いで、学習処理部３１１は、下記式（１）に基づき、第１メモリ１０から読み出した第１パラメータＷ１に、第２メモリ２０から読み出した累積更新情報ｄＷ２を反映する加算処理Ａ１１を実行することで、第２パラメータＷ２を導出する。
Ｗ２＝Ｗ１＋ｄＷ２ …（１）

ここで、第２パラメータＷ２は、後述するように、これまでの学習処理の結果（パラメータ更新結果）を反映した最新のパラメータＷを表すものとなる。なお、累積更新情報ｄＷ２が第２メモリ２０に記憶されていない場合、つまり対象層についての学習処理が初回の場合には、累積更新情報ｄＷ２は加算されないため、第２パラメータＷ２＝第１パラメータＷ１となる。

続いて、学習処理部３１１は、勾配降下法等のアルゴリズムを用いることで、第２パラメータＷ２から、損失値を小さくする勾配ｇＷを算出する学習処理Ａ１２を実行する。例えば、勾配ｇＷを算出する評価関数をｆとすると、学習処理部３１１は、下記式（２）に示すように、評価関数ｆに第２パラメータＷ２を入力することで、第２パラメータＷ２についての勾配ｇＷを算出する。なお、評価関数ｆは特に問わず、機械学習に係る公知の技術を用いることが可能である。
ｇＷ＝ｆ（Ｗ２） …（２）

続いて、学習処理部３１１は、第２パラメータＷ２と勾配ｇＷとに基づき、第２パラメータＷ２を更新した第３パラメータＷ３を算出する。具体的には、学習処理部３１１は、下記式（３）に基づいて第３パラメータＷ３を算出する。ここで、γは、学習率であり、例えば１以下の定数が設定される。
Ｗ３＝Ｗ２－γ×ｇＷ …（３）

次いで、学習処理部３１１は、下記式（４）により、第１パラメータＷ１と第３パラメータＷ３との差分値を、新たな累積更新情報ｄＷ２_newとして算出する。ここで、累積更新情報ｄＷ２_newは、下記式（４）を式（１）、（３）に基づき変形することで、式（４）’の関係式で表すことができる。
ｄＷ２_new＝Ｗ３－Ｗ１ …（４）
＝ｄＷ２－γ×ｇＷ …（４）’

次いで、学習処理部３１１は、算出した累積更新情報ｄＷ２_newを、対象層を識別する情報と関連付けて第２メモリ２０に記憶する。なお、圧縮伸張部３１２は、第２メモリ２０に累積更新情報ｄＷ２_newが記憶される際に、当該累積更新情報ｄＷ２_newに圧縮処理Ａ２２を施すものとする。そして、累積更新情報ｄＷ２_newは、第２メモリ２０において、累積更新情報ｄＷ２として記憶される。第２メモリ２０において、同一の対象層に関連付けられた既存の累積更新情報ｄＷ２が存在する場合には、既存の累積更新情報ｄＷ２は累積更新情報ｄＷ２_newで上書きされる。

学習処理部３１１は、モデル１１の各層について上記のバックワード処理を所定回数実行する。そして、各層の学習処理が完了後、学習処理部３１１は、学習データ５１ａを切り替える等により、上記のフォワード処理とバックワード処理を繰り返す。すなわち、学習処理部３１１は、再び出力層１１３から対象層の選択を開始する。

この場合、第２メモリ２０に対象層に対応する累積更新情報ｄＷ２が記憶されているため、学習処理部３１１は、第２メモリ２０から該当する累積更新情報ｄＷ２を読み出す。次いで、学習処理部３１１は、上記式（１）に基づき、第１メモリ１０から読み出した第１パラメータＷ１と、累積更新情報ｄＷ２とを加算することで、第２パラメータＷ２を算出する。

ここで、第２パラメータＷ２は、上記式（４）から明らかなように、対象層に対する前回の学習処理で算出した、更新後の第３パラメータＷ３と同値となる。つまり、第２パラメータＷ２は、これまでの学習処理の結果を反映した最新のパラメータを表すものとなる。そして、学習処理部３１１は、上記式（２）～（４）により、新たに算出した第３パラメータＷ３を用いて累積更新情報ｄＷ２_newを算出し、累積更新情報ｄＷ２として第２メモリ２０に記憶する。

学習処理部３１１は、上述した処理をモデル１１の層毎に繰り返し実行することで、モデル１１のパラメータＷを第１メモリ１０に維持（記憶）しながら、当該パラメータＷを第２メモリ２０を使用して更新する学習処理を実行する。したがって、本実施形態の演算装置１では、第１メモリ１０としてＮＡＮＤメモリやＳＳＤ等の書き換え回数に上限のある記憶メディアを使用した場合であっても、第１メモリ１０の書き換え回数を抑制した状態でモデル１１の学習処理を効率的に行うことができる。

また、更新部３１３は、学習処理の進行状況に応じて、第２メモリ２０に記憶された累積更新情報ｄＷ２を、第１メモリ１０に記憶されたモデル１１のパラメータに反映する更新処理Ａ３１を実行する。具体的には、更新部３１３は、第２メモリ２０に記憶された各層の累積更新情報ｄＷ２を、モデル１１の対応する層の第１パラメータＷ１に反映（加算）する。また、更新部３１３は、モデル１１の更新に伴い、第２メモリ２０に記憶された累積更新情報ｄＷ２を無効化（例えばクリア）する。

これにより、第１メモリ１０に記憶されたモデル１１の各層の第１パラメータＷ１を最新の状態に更新することができる。なお、第２メモリ２０から累積更新情報ｄＷ２が読み出される際には、圧縮伸張部３１２により、累積更新情報ｄＷ２の伸張処理Ａ２１が実行されるものとする。

更新部３１３が更新処理を実行するタイミングは任意に設定することが可能である。一例として、更新部３１３は、一つの学習データ５１ａについて、モデル１１を構成する全ての層について上述した学習処理が完了したタイミングで更新処理を実行してもよい。

また、例えば、多数の学習データ５１ａを含むデータセットが、複数のサブセットに分割されているような場合、更新部３１３は、所定の個数のサブセットについて学習処理が完了したタイミングで更新処理を実行してもよいし、全てのサブセットについての学習処理が完了したタイミング（１エポックの処理が完了したタイミング）で更新処理を実行してもよいし、全てのサブセットについての学習処理が所定回数完了したタイミング（所定回数エポックの処理が完了したタイミング）で更新処理を実行してもよい。

例えば、学習データ５１ａとして用意された入力データと教師データとの組の総数が１億個であり、当該学習データ５１ａを１００００個のサブセットに分割したとすると、１エポックの学習では、サブセット毎に１００００回の処理が行われることになる。この場合、更新部３１３は、１００００回の処理（すなわち１つのサブセットの処理）が行われる度に更新処理を実行してもよいし、所定数のサブセットの処理毎に更新処理を実行してもよい。

例えば、更新部３１３は、１エポックの処理が実行されたタイミングで更新処理を実行してもよい。更には、１度の学習処理で例えば上述した１エポックの学習データ５１ａを１００回繰り返して処理するような場合、更新部３１３は、１００エポックの処理が完了したタイミングで更新処理を実行してもよい。

また、更新処理のタイミングは、上記した学習データ５１ａの切り替えタイミングや、エポックの境界に限らないものとする。例えば、更新部３１３は、損失値の変化量や、実行時間（１時間毎等）等の任意の指標に基づいて更新処理を実行してもよい。一例として、更新部３１３は、損失値の変化量が微小を示す閾値範囲となった場合に更新処理を実行してもよい。

また、上記した更新処理のタイミングは組み合わせてもよい。例えば、１エポックの学習データ５１ａを１００回繰り返して処理するような場合、更新部３１３は、１エポック毎に更新処理を行うとともに、損失値の変化量が閾値範囲となったことを条件に更新処理を実行してもよい。

以下、コントローラ３０が行う学習処理の一例について説明する。図５は、コントローラ３０が行う学習処理の一例を示すフローチャートである。なお、本処理では、学習データ５１ａのデータセットが複数のサブセットに区分されているものとする。また、第１メモリ１０に記憶されたモデル１１の層数は、図２に示したように、入力層１１１を含むｖＬ層（但し、Ｌ≧３）のニューラルネットワークである例を説明する。

まず、学習処理部３１１は、学習処理を開始すると、処理の対象となる１つのサブセットに含まれた１つの学習データ５１ａを読み出す（Ｓ１１）。次いで、学習処理部３１１は、Ｓ１１で読み出した学習データ５１ａを第１メモリ１０に記憶されたモデル１１に入力し、現在のパラメータＷでの損失値を評価するフォワード処理を実行する（Ｓ１２）。

続いて、学習処理部３１１は、対象層を指定するためのインデックスｉを「０」に設定して（Ｓ１３）、Ｓ１４～Ｓ２２の処理を実行する。

まず、学習処理部３１１は、第１メモリ１０に記憶されたモデル１１から、対象層となるＬ－ｉ層の第１パラメータＷ１を読み出す（Ｓ１４）。また、学習処理部３１１は、第２メモリ２０からＬ－ｉ層に対応する累積更新情報ｄＷ２を読み出す（Ｓ１５）。なお、圧縮伸張部３１２は、第２メモリ２０から累積更新情報ｄＷ２が読み出される際に、当該累積更新情報ｄＷ２に対し伸張処理を施すものとする。

続いて、学習処理部３１１は、上記式（１）に基づき、Ｓ１４で読み出した第１パラメータＷ１に、Ｓ１５で読み出した累積更新情報ｄＷ２を加算することで、第２パラメータＷ２を算出する（Ｓ１６）。次いで、学習処理部３１１は、上記式（２）の評価関数に第２パラメータＷ２を入力し、勾配ｇＷを算出する（Ｓ１７）。

続いて、学習処理部３１１は、上記式（３）に基づき、第２パラメータＷ２と勾配ｇＷとから更新後の第３パラメータＷ３を算出する（Ｓ１８）。次いで、学習処理部３１１は、上記式（４）に基づき、第３パラメータＷ３と第１パラメータＷ１との差分値を、累積更新情報ｄＷ２_newとして算出する（Ｓ１９）。そして、学習処理部３１１は、算出した累積更新情報ｄＷ２_newを新たな累積更新情報ｄＷ２として、Ｌ－ｉ層を示す情報と対応付けて第２メモリ２０に記憶して（Ｓ２０）、Ｓ２１に移行する。なお、圧縮伸張部３１２は、累積更新情報ｄＷ２が第２メモリ２０に書き込まれる際に、当該累積更新情報ｄＷ２に圧縮処理を施すものとする。

続いて、学習処理部３１１は、インデックスｉを１インクリメント（Ｓ２１）した後、インデックスｉの値がＬ－１に達したか、つまり入力層１１１に達したか否かを判定する（Ｓ２２）。ここで、インデックスｉの値がＬ－１に達していない場合（Ｓ２２；Ｎｏ）、学習処理部３１１は、Ｓ１４に処理を戻す。これにより、出力層１１３から入力層１１１までの全ての層に対し、Ｓ１４～Ｓ２２の処理がそれぞれ実行される。

一方、インデックスｉの値がＬ－１に達したと判定した場合（Ｓ２２；Ｙｅｓ）、更新部３１３は、更新処理を実行するタイミングか否かを判定する（Ｓ２３）。

ここで、例えば、１エポック毎に更新処理を実行することが設定されている場合、更新部３１３は、更新処理を実行するタイミングと判定する（Ｓ２３；Ｙｅｓ）。この場合、更新部３１３は、第２メモリ２０に記憶された各層の累積更新情報ｄＷ２を、第１メモリ１０に記憶されたモデル１１に反映する更新処理を実行する（Ｓ２４）。次いで、更新部３１３は、第２メモリ２０に記憶された累積更新情報ｄＷ２を無効化（Ｓ２５）した後、処理はＳ２６に進む。なお、ここでも圧縮伸張部３１２は、第２メモリ２０から累積更新情報ｄＷ２が読み出される際に、当該累積更新情報ｄＷ２に対し伸張処理を施すものとする。

また、例えば、損失値の変化量に応じて更新処理を実行することが設定されている等、当該変化量が更新処理の実行条件を満たさない場合、更新部３１３は、更新処理を実行するタイミングではないと判定し（Ｓ２３；Ｎｏ）、Ｓ２６に移行する。

続くＳ２６では、学習処理部３１１は、全てのサブセットを処理したか否かを判定する（Ｓ２６）。ここで、未処理のサブセットが存在する場合には（Ｓ２６；Ｎｏ）、学習処理部３１１は、未処理のサブセットを１つ選択し（Ｓ２７）、Ｓ１１に処理を戻す。これにより、新たなサブセットに含まれる学習データ５１ａの各々に対し、Ｓ１２～Ｓ２５の処理がそれぞれ実行される。

また、全てのサブセットを処理した場合（Ｓ２６；Ｙｅｓ）、つまり１エポック分の処理が完了した場合、処理はＳ２８に進む。

ここで、学習処理部３１１は、学習処理を終了するか否かを判定する（Ｓ２８）。例えば、１００エポック分処理することが設定されている場合、学習処理部３１１は、１００エポック分の処理が完了するまでこの処理を継続する（Ｓ２８；Ｎｏ）。この場合、学習処理部３１１は、Ｓ１１に処理を戻すことで、新たな学習データ５１ａの最初のデータセットに対して、再び一連する処理を開始する。一方、学習処理の終了条件を満たした場合には（Ｓ２８；Ｙｅｓ）、学習処理部３１１はこの処理を終了する。

上述したように、本実施形態に係る演算装置１は、第２メモリ２０に記憶された累積更新情報ｄＷ２を第１メモリ１０のモデル１１に反映する更新処理を、第１パラメータＷ１を更新する度に実行するのではなく、例えば１エポック等のタイミングで実行する。したがって、第１メモリ１０に記憶されたモデル１１の更新回数は、第１パラメータＷ１の更新毎にモデル１１を更新する手法と比較して、低く抑えられることになる。但し、累積更新情報ｄＷ２は、上述したように、これまでの学習処理の結果が累積されたものであるため、モデル１１の更新回数を減らしてもモデル１１の精度を高く維持することができる。

ここで、図６を参照して、モデル１１の更新回数と精度との関係について説明する。図６は、実施形態に係るモデル１１の更新回数と精度との関係を説明するための図である。

なお、図６は、画像認識用の機械学習を行った場合のシミュレーション結果を基に、更新回数と認識精度との関係を模式的に示したものである。ここで、認識精度は、画像に表された対象を正しく認識できたことを正解とする認識処理を、所定の画像枚数分行った際の正解率を意味する。また、図６では、モデル１１と対比するため、第１パラメータＷ１の更新毎にモデル１１を更新する手法で生成されたモデル（以下、参考モデルともいう）の更新回数と認識精度とをあわせて図示している。

図６において、横軸はモデル１１と参考モデルとの更新回数の相対値（比）を表すものであり、縦軸は認識精度（％）を表すものである。また、図６において、実線で表すグラフＧ１は、実施形態に係るモデル１１の更新回数と認識精度との関係を示すものであり、破線で表すグラフＧ２は、参考モデルの更新回数と認識精度との関係を示している。なお、図６では、認識精度が同値となる、モデル１１及び参考モデルの各々の更新回数を「１」としている。

実施形態に係るモデル１１では、更新回数を「１」の状態から「１／１０」に減らした場合であっても、学習回数は更新回数と同数とはならず、次回の更新タイミングまでに行われた複数回分の学習処理の結果が累積更新情報ｄＷ２としてモデル１１に反映される。そのため、グラフＧ１に示すように、モデル１１を用いた場合の認識精度は、更新回数を「１／１０」に減らした場合であっても、更新回数を「１」と同程度の認識精度を維持することができる。また、同様に、更新回数を「１／１００」に減らした場合であっても、高い認識精度のまま維持することができる。

一方、参考モデルでは、更新回数を減らした場合、学習回数は更新回数と同数となるため、更新回数の減少数に応じて認識精度が低下することになる、そのため、グラフＧ２に示すように、参考モデルでは更新回数を「１／１０」に減らすと認識精度が大きく劣化することになる。

このように、本実施形態に係る演算装置１は、モデル１１の更新回数、すなわち第１メモリ１０の書き換え回数を抑えた状態であっても、精度の高いモデル１１を生成することができる。したがって、演算装置１は、モデル１１の学習処理を効率よく実行することができる。

以上のように、本実施形態に係る演算装置１は、第１メモリ１０に記憶されたモデル１１に学習データ５１ａを入力して得られた損失値に基づいて第１パラメータＷ１を更新する学習処理を実行し、更新前後の第１パラメータＷ１の差分を示す累積更新情報ｄＷ２を第２メモリ２０に記憶する。また、演算装置１は、第１メモリ１０に記憶されたモデル１１から読み出した第１パラメータＷ１に第２メモリ２０に記憶された累積更新情報ｄＷ２を反映した第２パラメータを用いて前記学習処理を実行し、当該第２パラメータＷ２を更新した第３パラメータＷ３と第１パラメータＷ１との差分を累積更新情報として前記第２メモリに記憶する。

この構成によれば、第１メモリ１０に記憶されたモデル１１の第１パラメータＷ１を維持した状態で、当該第１パラメータＷ１を更新する学習処理を、第２メモリ２０を用いて実行することができる。これにより、実施形態に係る演算装置１では、第１メモリ１０としてＮＡＮＤメモリやＳＳＤ等の書き換え回数に上限のある記憶メディアを使用した場合であっても、第１メモリ１０の書き換え回数を抑制した状態で学習処理を行うことができる。したがって、実施形態に係る演算装置１及びこの演算装置１による演算方法によれば、学習を効率的に行うことができる。また、実施形態に係る技術によれば、ディープラーニング等のパラメータの数が膨大となるモデル１１であっても、ＨＤＤに比べより高速にアクセス可能なＮＡＮＤメモリやＳＳＤ等の記憶メディアを用いてモデル１１の学習を行うことができるため、学習の高速化を図ることができる。

以上説明した実施形態によれば、機械学習を効率的に行うことができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１演算装置、５ホスト、１０第１メモリ、２０第２メモリ、３０コントローラ、３１ＣＰＵ、３２ＲＯＭ、３３ＲＡＭ、３４ＨＯＳＴＩ／Ｆ、３５第１メモリＩ／Ｆ、３６第２メモリＩ／Ｆ、３１１学習処理部、３１２圧縮伸張部、３１３更新部。

Claims

機械学習の対象となるモデルを記憶する不揮発性の第１メモリと、
前記第１メモリよりも記憶容量が小さい第２メモリと、
前記第１メモリに記憶された前記モデルに学習データを入力して得られた損失値に基づき前記モデルの第１パラメータを更新する学習処理を実行し、更新前後の前記第１パラメータの差分を示す累積更新情報を前記第２メモリに記憶するコントローラと、
を備え、
前記コントローラは、前記第１メモリに記憶された前記モデルから読み出した前記第１パラメータに前記第２メモリに記憶された前記累積更新情報を反映した第２パラメータを用いて前記学習処理を実行し、当該第２パラメータを更新した第３パラメータと前記第１パラメータとの差分を前記累積更新情報として前記第２メモリに記憶する演算装置。
前記コントローラは、前記モデルを構成するニューラルネットワークの層毎に前記第１パラメータを読み出して前記学習処理を実行し、前記層毎に前記累積更新情報を前記第２メモリに記憶する、請求項１に記載の演算装置。
前記コントローラは、前記累積更新情報のデータ量を圧縮して前記第２メモリに記憶する、請求項１又は２に記載の演算装置。
前記コントローラは、前記累積更新情報をプルーニング又は量子化してデータ量を圧縮する、請求項３に記載の演算装置。
前記コントローラは、前記累積更新情報にデータ量を可逆圧縮し、前記累積更新情報を前記第２メモリから読み出す際に伸張する、請求項３又は４に記載の演算装置。
前記コントローラは、前記学習処理の進行状況に応じて、前記第２メモリに記憶された前記累積更新情報を、前記第１メモリに記憶された前記モデルに反映する更新処理を実行する、請求項１に記載の演算装置。
前記コントローラは、前記モデルを構成するニューラルネットワークの全ての層の学習処理が完了したタイミングで前記更新処理を実行する、請求項６に記載の演算装置。
前記コントローラは、所定のエポック数毎に前記更新処理を実行する、請求項６に記載の演算装置。
前記コントローラは、前記損失値の変化量に応じて前記更新処理を実行する、請求項６に記載の演算装置。
前記第１メモリは、ＮＡＮＤ型フラッシュメモリで構成される、請求項１に記載の演算装置。
前記第２メモリは、ＤＲＡＭ又はＳＲＡＭで構成される、請求項１に記載の演算装置。
機械学習の対象となるモデルを記憶する不揮発性の第１メモリと、前記第１メモリよりも記憶容量が小さい第２メモリと、を備える演算装置で実行される演算方法であって、
前記第１メモリに記憶された前記モデルに学習データを入力して得られた損失値に基づいて前記モデルの第１パラメータを更新する学習処理を実行し、
更新前後の前記第１パラメータの差分を示す累積更新情報を前記第２メモリに記憶し、
前記モデルから読み出した前記第１パラメータに前記第２メモリに記憶された前記累積更新情報を反映した第２パラメータを用いて前記学習処理を実行し、
前記第２パラメータを更新した第３パラメータと、前記第１パラメータとの差分を前記累積更新情報として前記第２メモリに記憶する、演算方法。