WO2020217987A1

WO2020217987A1 - 情報処理装置、情報処理方法、プログラム生成方法

Info

Publication number: WO2020217987A1
Application number: PCT/JP2020/015781
Authority: WO
Inventors: 義己田中; 裕明三上
Original assignee: ソニー株式会社
Priority date: 2019-04-22
Filing date: 2020-04-08
Publication date: 2020-10-29

Abstract

本技術は、機器学習が収束するまでの時間を短くすることができるようにする情報処理装置、情報処理方法、プログラム生成方法に関する。所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部と、学習部の演算に用いるパラメータを調整する調整部とを備え、調整部は、演算式に含まれる学習係数を低減したとき、演算式に含まれる所定のパラメータの値を、学習係数を低減する前の値よりも小さい値に調整する。演算式は、Momentum SGD（Stochastic Gradient Descent）における式である。所定のパラメータは、Momentum SGDの慣性項に含まれるパラメータである。本技術は、例えば、機械学習を行うノードに適用できる。

Description

情報処理装置、情報処理方法、プログラム生成方法

　本技術は情報処理装置、情報処理方法、プログラム生成方法に関し、例えば、機械学習をより効率良く行えるようにした情報処理装置、情報処理方法、プログラム生成方法に関する。

　近年、人工知能における研究が盛んとなり、さまざまな学習方法が提案されている。例えば、ディープラーニング（Deep Learning）などと称される学習方法が提案されている。ディープラーニングによる学習では、一般に計算回数が膨大になるため、１台の装置で処理すると長時間の計算が必要となる傾向にある。そこで、複数台の装置で分散して処理することが提案されている（例えば、特許文献１参照）。

特開平０５－１０８５９５号公報

　１台の装置で処理するよりも、複数台の装置で分散して処理した場合、それぞれの装置での処理負担を軽減し、処理（計算）にかかる時間を短縮することができる。さらに、より早く学習が収束することが望まれている。

　本技術は、このような状況に鑑みてなされたものであり、学習が早く収束することができるようにするものである。

　本技術の一側面の情報処理装置は、所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部と、前記学習部の演算に用いるパラメータを調整する調整部とを備え、前記調整部は、前記演算式に含まれる学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、前記学習係数を低減する前の値よりも小さい値に調整する。

　本技術の一側面の情報処理方法は、機械学習を行う情報処理装置が、所定のバッチサイズで、所定の演算式に基づき前記機械学習を行い、前記機械学習の演算に用いるパラメータを設定し、前記演算式に含まれる学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、学習係数を低減する前の値よりも小さい値に調整する。

　本技術の一側面のプログラム生成方法は、所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部を制御するためのプログラムであり、ユーザインタフェースで設定される、前記演算式に含まれる学習係数を低減するタイミングと、前記タイミング直後に適用される前記演算式に含まれる所定のパラメータの値と、前記所定のパラメータの値を適用する期間とに基づき前記機械学習が行われるように前記学習部を制御するためのプログラムを生成する。

　本技術の一側面の情報処理装置、情報処理方法においては、所定のバッチサイズで、所定の演算式に基づき機械学習が行われ、演算に用いられるパラメータが調整され、演算式に含まれる学習係数を低減したとき、演算式に含まれる所定のパラメータの値が、学習係数を低減する前の値よりも小さい値に調整される。

　本技術の一側面のプログラム生成方法においては、所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部を制御するためのプログラムが生成される。生成されるプログラムは、ユーザインタフェースで設定される、演算式に含まれる学習係数を低減するタイミングと、タイミング直後に適用される演算式に含まれる所定のパラメータの値と、所定のパラメータの値を適用する期間とに基づき機械学習が行われるように制御するためのプログラムである。

　なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

　また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。

本技術を適用した情報処理装置の一実施の形態の構成を示す図である。本技術を適用した情報処理装置の機能構成例を示す図である。計算ノードにおける学習の進め方について説明するための図である。計算ノードにおける分散学習の進め方について説明するための図である。分散学習時のシステム構成例を示す図である。分散学習時のシステムの処理について説明するための図である。分散学習時の他のシステム構成例を示す図である。分散学習時のシステム構成例を示す図である。分散学習時のシステム構成例を示す図である。分散学習時のシステム構成例を示す図である。分散学習時のシステム構成例を示す図である。分散学習時のシステム構成例を示す図である。 LR Decayが実行されたときのエラー率の変化について説明するための図である。 LR Decayが実行されたときのエラー率の変化について説明するための図である。エラー率が低下しない原因について考察するための図である。エラー率が低下しない原因について考察するための図である。パラメータαの調整期間について説明するための図である。ユーザに提示される設定画面の一例を示す図である。ユーザに提示される設定画面の一例を示す図である。パラメータαの値について説明するための図である。 LR Decayが実行されたときのエラー率の変化について説明するための図である。計算ノードの処理について説明するための図である。

　以下に、本技術を実施するための形態（以下、実施の形態という）について説明する。

　本技術は、機械学習に適用できる。また機械学習における分散学習に適用できる。機械学習としては、多層構造のニューラルネットワークを用いた機械学習であるディープラーニング（深層学習）に対して、本技術を適用できる。ここでは、ディープラーニングに本技術を適用した場合を例に挙げて説明を行うが、他の機械学習に対しても適用可能である。

　＜計算ノードの構成＞
　図１は、本技術を適用した情報処理装置の一実施の形態の構成を示す図である。本技術を適用した情報処理装置は、上記したように、機械学習を行う装置として適用できるため、以下の説明では計算ノードと記述する。計算ノード１０は、例えば、パーソナルコンピュータで構成することができる。

　計算ノード１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、ＧＰＵ（Graphics Processing Unit）１４が、バス１５により相互に接続されている構成とされている。バス１５には、さらに、入出力インタフェース１６が接続されている。入出力インタフェース１６には、入力部１７、出力部１８、記憶部１９、通信部２０、およびドライブ２１が接続されている。

　入力部１７は、キーボード、マウス、マイクロフォンなどよりなる。出力部１８は、ディスプレイ、スピーカなどよりなる。記憶部１９は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０は、ネットワークインタフェースなどよりなる。ドライブ２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体２２を駆動する。

　＜計算ノードの機能構成＞
　図２に、計算ノード１０の機能構成例を示す。計算ノード１０は、学習データ保存部３１、学習データ前処理部３２、パラメータ計算部３３、ＤＮＮ（Deep Neural Network）モデル保存部３４、学習更新部３５、および勾配情報保存部３６を備える。

　学習データ保存部３１は、ＲＡＭ１３（図１）や、ハードディスクドライブ（ＨＤＤ）などで構成される記憶部１９で構成することができる。学習データ保存部３１は、ＤＮＮ学習の入力となる学習データセットを保存する。

　学習データ前処理部３２は、ＣＰＵ１１（図１）で構成することができる。学習データ前処理部３２は、実際のＤＮＮ学習の処理に投入する前に、学習データセットを加工する処理を行う。例えば、画像識別や画像認識等の学習を行う場合、画像データに対して以下のような処理を施す。

　ＪＰＥＧ（Joint Photographic Experts Group）等の保存形式から、ＤＮＮ学習の入力となるフォーマットに変換する。また、入力画像から平均値を減算するmean subtractionと称される数値変換や、正規化（normalization）といった数値変換が行われる。

　学習画像を増加させる処理として、所定サイズに画像をリサイズし、リサイズされた画像から所定のサイズのパッチをランダムに取り出すことで学習画像を増やすrandom cropと称される処理が行われる。また水平方向や垂直方向に画像を反転することで学習画像を増やす（horizontal/vertical)flipと称される処理が行われる。

　また画像を回転することで学習画像を増やすrotationと称される処理が行われる。また、画像の大きさを変更することで学習画像を増やすScaleと称される処理が行われる。また、画像から所定サイズの画像を切り出すことで学習画像を増やすcutoutと称される処理が行われる。

　また、画像をリサイズした後、画像のアスペクト比を変更することで学習画像を増やすaspect ratio augmentationと称される処理が行われる。また、画像の色調を変更することで学習画像を増やすcolor augmentationと称される処理が行われる。

　また学習データ前処理部３２は、音声認識等の学習を行う場合、音声データに対して、例えば、ホワイトノイズを加えることで学習音声を増やす処理を行う。また、音のピッチを変えることで学習音声を増やす処理が行われる。また、音のテンポを変えることで学習音声を増やす処理が行われる。

　学習データ前処理部３２は、このような処理の１または複数の処理を行う。またここで挙げた処理は一例であり、他の処理が実行される（他の処理も実行される）ようにしても良い。

　パラメータ計算部３３は、ＣＰＵ１１（図１）で構成することができる。パラメータ計算部３３は、ＤＮＮ学習で利用される初期パラメータを算出したり、生成したりする。なお、初期パラメータは、ある程度固定で持っている手法や、算出により算出する手法があり、どのような手法が用いられるかは、適宜設定可能である。また本実施の形態におけるパラメータ計算部３３は、後述するパラメータαの値を調整する機能も有する。

　ＤＮＮモデル保存部３４は、ＶＲＡＭ（Video RAM、図１では不図示）で構成することができる。ＤＮＮモデル保存部３４は、学習したいモデルの情報が保存される。またモデルの形の定義だけではなく、初期の重みの決定方法なども適宜保存される。

　学習更新部３５は、ＧＰＵ１４（図１）で構成することができる。学習更新部３５は、ＧＰＵ１４以外に、ＣＰＵ１１で構成することもできる。また学習更新部３５は、ＦＰＧＡ（Field－Programmable Gate Array）や、ＡＳＩＣ（Application Specific Integrated Circuit）などの専用のチップで構成されていても良い。

　学習更新部３５は、学習を行い、パラメータを生成し、更新する処理を行う。学習更新部３５には、学習データ保存部３１により保存されている学習データセットであり、学習データ前処理部３２で前処理が施された学習データセットが供給される。

　また学習更新部３５には、ＤＮＮモデル保存部３４で保存されているＤＮＮモデルも供給される。また、学習更新部３５には、パラメータ計算部３３から初期パラメータも供給される。学習更新部３５は、学習データセット、ＤＮＮモデル、初期パラメータを用いて学習処理を行う。

　学習処理の結果、勾配データが生成される。勾配データは、勾配情報保存部３６に供給される。勾配情報保存部３６は、ＶＲＡＭで構成することができる。勾配情報保存部３６は、学習により得られた勾配情報を一時的に保存しておく。後述する分散学習等には、保存された勾配情報は、ＧＰＵ１４間や計算ノード１０間で交換（同期）される。

　なお、図２に示したような計算ノード１０のみで学習を行う場合、換言すれば、後述する分散学習を行わない場合、勾配情報保存部３６を省略した構成とすることも可能である。

　図２に示したような１つのＧＰＵ１４（１つの学習更新部３５）を有する計算ノードで学習処理を行う場合、図３に示すように学習が行われる。学習開始時には、上記したように、学習データセット、ＤＮＮモデル、初期パラメータが入力されることで、学習が開始される。学習は、学習データセットが適度なサイズのミニバッチに分割され、分割されたミニバッチ毎に行われる。

　１つのミニバッチが学習される単位を、学習イテレーション（Iteration）と称する。学習開始から学習終了まで、ミニバッチ毎に学習イテレーションが繰り返される。

　＜分散学習について＞
　ところで、ディープラーニングの処理量は膨大であり、学習完了までに時間がかかる。そこで、複数のＧＰＵ１４（学習更新部３５）を用いて、学習を分散し、１台当たりの処理負担の軽減や、処理にかかる時間を短縮する分散学習と称される学習方法がある。

　分散学習は、図４に示すように学習が行われる。学習データセットが、ミニバッチに分割され、分割されたミニバッチ毎に学習が行われるのは、図３を参照して説明した場合と同様であるが、分散学習の場合、学習は、複数のＧＰＵ１４で行われる点が異なる。また、分散学習の場合、複数のＧＰＵ１４で学習された学習結果を、同期する必要がある。

　分散学習においては、１学習イテレーションは、１つのミニバッチでの学習する学習期間と、その学習により得られたパラメータを複数のＧＰＵ１４で同期する同期期間を合わせた期間となる。

　分散学習を行う場合のシステム構成は、パラメータサーバを含むシステムと、パラメータサーバを含まないシステムとがある。図５に、パラメータサーバを含む分散学習を行うシステムの構成例を示す。

　図５に示したシステムは、パラメータサーバ５１と計算ノード１０とから構成されている。パラメータサーバ５１は、計算ノード１０－１乃至１０－Ｍ間でパラメータの状態などを共有するためのデータを管理する。計算ノード１０－１乃至１０－Ｍは、それぞれＧＰＵ１４を含む装置であり、分散学習における所定の演算を行う。

　図５に示したシステムにおける処理について、図６のフローチャートを参照しながら説明する。学習が開始されると、ステップＳ１１－１乃至Ｓ１１－Ｍにおいて、パラメータサーバ５１から複数の計算ノード１０－１乃至１０－Ｍに対して、学習用データが供給される。各計算ノード１０－１乃至１０－Ｍは、必要に応じて、供給された学習用データに対して前処理を施す。

　各計算ノード１０－１乃至１０－Ｍは、ステップＳ１２－１乃至Ｓ１２－Ｍにおいて、学習用データを受け取り、勾配ｇを計算する。学習用データは、各計算ノード１０－１乃至１０－Ｍに分散されて、供給される。

　例えば、学習データＤ１は、｛Ｄ１１，Ｄ１０，Ｄ１３・・・Ｄｍ｝のＭ個に分散され、計算ノード１０－１には、学習データＤ１１が供給され、計算ノード１０－２には、学習データＤ１０が供給され、計算ノード１０－Ｍには、学習データＤｍが供給される。

　各計算ノード１０－１乃至１０－Ｍは、学習により勾配データを生成する。ステップＳ１３において、各計算ノード１０－１乃至１０－Ｍは、計算した勾配ｇを、パラメータサーバ５１に供給する。例えば、計算ノード１０－１は、勾配ｇ１を算出し、パラメータサーバ５１に供給し、計算ノード１０－２は、勾配ｇ２を算出し、パラメータサーバ５１に供給し、計算ノード１０－Ｍは、勾配ｇＭを算出し、パラメータサーバ５１に供給する。

　パラメータサーバ５１は、各計算ノード１０－１乃至１０－Ｍからの勾配ｇを受け取り、その勾配ｇの平均を計算し、その平均に基づき、パラメータｗを更新する。パラメータサーバ５１において更新されたパラメータｗは、計算ノード１０－１乃至１０－Ｍにそれぞれ供給される。各計算ノード１０－１乃至１０－Ｍは、供給されたパラメータｗに基づき内部モデルを更新する（ステップＳ１４－１乃至Ｓ１４－Ｍ）。

　このような処理が、パラメータサーバ５１と計算ノード１０－１乃至１０－Ｍとの間で繰り返されることで学習が進められる。そして、ステップＳ１５において、学習データは残っていないと判定されたとき、学習は完了される。

　図７は、分散学習を行うシステムの他の構成例を示す図である。図７に示したシステムは、Ｐ２Ｐ（Peer to Peer）と称されるシステムである。図７に示したシステムにおいては、パラメータサーバ５１は設けられず、複数台の計算ノード１０から構成されている。

　図７に示したシステムにおいては、計算ノード１０－１乃至１０－Ｍ同士でデータの授受が行われる。計算ノード１０－１は、自己が算出した勾配ｇ１を計算ノード１０－２と計算ノード１０－３にそれぞれ供給する。同じく、計算ノード１０－２は、自己が算出した勾配ｇ２を計算ノード１０－１と計算ノード１０－３にそれぞれ供給する。同じく、計算ノード１０－３は、自己が算出した勾配ｇ３を計算ノード１０－１と計算ノード１０－２にそれぞれ供給する。

　各計算ノード１０は、図５に示した計算ノード１０と基本的に同様の処理を行うことで、また、パラメータサーバ５１が行う処理も併せて行うことで、勾配を算出したり、パラメータを更新したりする。

　本技術が適用される分散学習を行うシステムとしては、図５または図７に示したシステムとすることができる。また、図５および図７に示したシステム以外のシステムに対しても、以下に説明する本技術を適用することはできる。

　図５に示したシステムにおけるパラメータサーバ５１と計算ノード１０の構成例について、図８を参照して説明する。以下の説明においては、図２に示した計算ノード１０を、他の計算ノード１０と区別する場合、計算ノード１０ａと記述する。

　図８に示したシステムは、パラメータサーバ５１と計算ノード１０ｂ－１乃至１０ｂ－４が、ネットワーク７１を介して接続されている。なお、以下の説明においては、計算ノード１０ｂ－１乃至１０ｂ－４の４台の計算ノード１０ｂがネットワーク７１に接続されている場合を例示し、この４台の計算ノード１０ｂで分散学習を行うとして説明を続けるが、４台以外の計算ノード１０ｂで分散学習を行う場合にも、本技術は適用できる。

　ネットワーク７１は、有線または／および無線により構成された、例えば、ホームネットワーク、ＬＡＮ（Local Area Network），ＷＡＮ（Wide Area Network），または、インターネットなどの広域ネットワークなどに対応するネットワークである。パラメータサーバ５１と計算ノード１０ｂは、ネットワーク７１を介してデータの授受を行えるように構成されている。

　計算ノード１０ｂ－１乃至１０ｂ－４は、基本的に同一の構成であり、各計算ノード１０ｂ－１乃至１０ｂ－４は、図２に示した計算ノード１０ａと同一の構成とすることができる。

　パラメータサーバ５１は、ＤＮＮモデル保存部６１と更新部６２を備える。パラメータサーバ５１のＤＮＮモデル保存部６１は、計算ノード１０ｂのＤＮＮモデル保存部３４と同じく、学習したいモデルの情報が保存されている。更新部６２は、勾配の同期により得られた各計算ノード１０ｂ－１乃至１０ｂ－４からの勾配の平均を計算し、その平均に基づき、パラメータｗを更新する。パラメータサーバ５１において更新されたパラメータｗは、各計算ノード１０ｂ－１乃至１０ｂ－４に供給される。

　図７に示したシステムにおける計算ノード１０の構成例について、図９を参照して説明する。図７に示したシステムは、パラメータサーバ５１が含まれないシステムであり、計算ノード１０同士でデータの授受を行うシステムであるため、図９に示すように、計算ノード１０ｃ－１乃至１０ｃ－４が、ネットワーク７１に接続されている構成である。

　計算ノード１０ｃ－１乃至１０ｃ－４は、基本的に同一の構成であり、各計算ノード１０ｃ－１乃至１０ｃ－４は、図２に示した計算ノード１０ａと同一の構成とすることができる。

　図７に示したシステムにおける計算ノード１０の他の構成例について、図１０を参照して説明する。分散学習は、１つの計算ノード１０内に、複数のＧＰＵ１４を備えることで行うことも可能である。

　図１０に示した計算ノード１０ｄは、図２に示した計算ノード１０ａと同じく、学習データ保存部３１、学習データ前処理部３２、およびパラメータ計算部３３を備える。さらに計算ノード１０ｄは、学習更新部３５ｄ－１乃至３５ｄ―３を備え、それらの学習更新部３５ｄ－１乃至３５ｄ―３に、ＤＮＮモデルを供給するＤＮＮモデル保存部３４ｄ－１乃至３４ｄ－３を備える。また、計算ノード１０ｄは、学習更新部３５ｄ－１乃至３５ｄ―３からの勾配情報を保存する勾配情報保存部３６ｄ－１乃至３６ｄ－３も備える。

　計算ノード１０ｄにおいては、学習更新部３５ｄ－１乃至３５ｄ―３のそれぞれで学習や更新を行うことで、分散学習が行われる。学習更新部３５ｄ－１乃至３５ｄ―３のそれぞれで学習や更新を行うために、学習データ前処理部３２からの前処理済みの学習データは、学習更新部３５ｄ－１乃至３５ｄ―３のそれぞれに供給される。また、パラメータ計算部３３からのパラメータも、学習更新部３５ｄ－１乃至３５ｄ―３のそれぞれに供給される。

　このように、１台の計算ノード１０が、複数の学習更新部３５（ＧＰＵ１４）を備えることで、分散学習が実行されるようにしても良い。さらに、図１１に示すように、複数の学習更新部３５を備える計算ノード１０ｄが、ネットワーク７１に複数台接続され、複数台の計算ノード１０ｄにより分散学習が行われる構成とすることもできる。

　また、図１０に示した計算ノード１０ｄにおいて、ＤＮＮモデル保存部３４ｄ－１乃至３４ｄ－３と、勾配情報保存部３６ｄ－１乃至３６ｄ－３は、それぞれＶＲＡＭなどのメモリで構成することができる。計算ノード１０ｄを、図１２に示すようにメモリを共有する構成にすることもできる。

　図１２に示した計算ノード１０ｅは、図１０に示した計算ノード１０ｄと同じく、学習更新部３５ｅ－１乃至３５ｅ―３を備える。図１０に示した計算ノード１０ｄでは、ＤＮＮモデル保存部３４ｄ－１乃至３４ｄ－３が備えられていたが、図１２に示した計算ノード１０ｅでは、ＤＮＮモデル保存部３４ｅを備え、このＤＮＮモデル保存部３４ｅを、学習更新部３５ｅ－１乃至３５ｅ―３で共有する構成とされている。

　また、図１０に示した計算ノード１０ｄでは、勾配情報保存部３６ｄ－１乃至３６ｄ－３が備えられていたが、図１２に示した計算ノード１０ｅでは、勾配情報保存部３６ｅを備え、この勾配情報保存部３６ｅを、学習更新部３５ｅ－１乃至３５ｅ―３で共有する構成とされている。

　図１２に示した計算ノード１０ｅを、図１１に示した計算ノード１０ｄの代わりとし、計算ノード１０ｅがネットワーク７１に複数台接続されているシステム構成とすることもできる。

　以下に説明する学習や更新に係わる処理は、上記したいずれの計算ノード１０においても実行することができる。本技術は、計算ノード１０の構成によらず適用することができる。

　＜学習更新部の処理＞
　学習更新部３５は、学習を行い、パラメータを更新する。ニューラルネットワークにおける学習とは、損失関数の値を最小化するパラメータを見つけることであり、最適化問題などとも称されることがある。この最適化問題を解決するために、種々の方法が提案されている。

　最適化の手法として、確率的勾配降下法（SGD : Stochastic Gradient Descent）がある。このSGDは、パラメータの勾配方向にパラメータを更新し、より適したパラメータを見つけ出す手法である。一般的な式は、次式（１）のように表せる。

　式（１）において、ｗはパラメータを表し、ηは学習係数を表し、Ｅは誤差関数を表す。SGDによると、関数の形状が等方的ではない場合、非効率な経路で解を検索することになるため、収束するまでの時間がかかってしまう可能性があった。SGDによるこのような欠点は、勾配の方向が本来の最小値ではない方向を指していることが、１つの原因となっているため、次式（２）に示すように、SGDに慣性項（Momentum）を付与することで解決することが提案されている。

　式（２）に基づく勾配法は、Momentum SGDと称されることもある。式（２）は、式（１）に、慣性項が追加された式である。この慣性項は、前回の更新量Δｗｔをα倍する項である。αは慣性項のパラメータである。Momentum SGDを用いると、SGDよりも収束するまでの時間が短くなる傾向にある。

　以下の説明では、最適化アルゴリズムとして、Momentum SGDを用いた場合を例に挙げて説明を行うが、他の最適化アルゴリズムを用いて学習が行われる場合にも本技術を適用することはできる。

　SGDにおける式（１）、Momentum SGDにおける式（２）を参照するに、式（１）と式（２）には学習係数ηが含まれている。学習係数は、パラメータの更新幅を制限する係数である。一般的に、学習係数が小さ過ぎると学習に時間がかかり、また、大き過ぎると発散して正しい値に収束しなくなる可能性がある。

　そこで、学習開始当初は大きな学習係数を用い、学習が進むにつれて学習係数を小さくすることも提案されている。この手法は、学習係数の低減（Learning Rate Decay）を行う手法であり、以下、LR Decayと記述する。

　図１３は、LR Decayを行う学習を行ったときのエラー率の変化を示すグラフである。図１３に示したグラフの横軸は、エポック数を表し、縦軸は、エラー率を表している。学習は、早い段階（エポック数が少ない段階）で、エラー率が０に近い値になるのが良い。

　図１３に示したグラフでは、タイミングＴ１（エポック数が約３０のとき）、タイミングＴ２（エポック数が約６０のとき）、タイミングＴ３のタイミング（エポック数が約８０のとき）でLR Decayが実行された場合を示している。

　また図１３に示したグラフにおけるLR Decayは、学習係数を１／１０に低減した場合を示している。また、図１３に示したグラフは、分散学習時のグラフではなく、図２に示したような計算ノード１０により学習を行ったときのグラフである。

　図１３に示したグラフを参照するに、LR Decayが実行されたタイミングで、エラー率が下がり、学習の進みが加速化したことが読み取れる。タイミングＴ１とタイミングＴ２のときのエラー率の減少率に比べて、タイミングＴ３のときのエラー率の減少率は小さいことも読み取れる。このように、学習が進むと、LR Decayを実行してもエラー率の下がりが加速しないときもある。

　分散学習時におけるグラフを、図１４に示す。図１４に示したグラフは、タイミングＴ１１（エポック数が約２８のとき）に、LR Decayが実行された場合を表している。また図１４に示したグラフのうち、点線のグラフはリファレンスのグラフであり、バッチサイズ（Ｂs）が２５６のケースを表し、実線のグラフはバッチサイズ（Ｂs）を６４倍にしたケース（Ｂs＝１６ｋ）を表す。

　分散学習におけるバッチサイズを、以下のように定義する。分散学習では、図４を参照して説明したように、データセットをミニバッチに分割して学習が行われる。この１回のミニバッチの学習で利用される学習データの量をバッチサイズと称する。分散学習の場合、複数のＧＰＵ１４を利用してミニバッチ学習が行われることになる。よって、この複数のＧＰＵ１４に割り当てられたミニバッチの総数が、分散学習におけるバッチサイズとなる。

　実線のグラフは、Ｂｓ＝２５６の処理を実行する計算ノード１０（ＧＰＵ１４）を６４台用いて分散学習を行ったときのグラフであるため、Ｂｓ＝１６ｋ（＝２５６×６４）となる。

　図１４のグラフを参照するに、点線で示したＢｓ＝２５６のグラフからは、タイミングＴ１１において、LR Decayが実行されることで、エラー率が下がり、学習速度が加速したことが読み取れる。しかしながら、実線で示したＢｓ＝１６ｋのグラフからは、タイミングＴ１１において、LR Decayが実行されても、エラー率の減少率は小さく、学習速度が加速していないことが読み取れる。

　なお、ここでは、Ｂｓ＝１６ｋは、分散学習時である場合を例に挙げて説明を続けるが、１台の計算ノード１０（ＧＰＵ１４）で処理を行った場合も、同様に、エラー率の下がりが鈍化する。すなわち、一度に扱うバッチサイズが大きい場合に起こり得る現象である。

　このように、Ｂs＝１６ｋの場合、LR Decayしたタイミングでのエラー率の下がりが鈍くなる原因について考察する。

　ここで再度、式（２）を参照する。Momentum SGDでは、慣性項（αΔｗｔ）で、前回の更新量Δｗｔをα倍しているため、前回の影響を受けることになる。すなわち、Momentum SGDでは、LR Decayの前の状態を考慮したアルゴリズムとなっている。

　バッチサイズが大きいということは、LR Decayの前の状態で処理される量が多いため、エラー率の下がり悪くなると考えられる。図１５を参照して説明する。図１５の上図は、Ｂs＝１６ｋでの学習の進み具合を表し、下図は、Ｂｓ＝２５６での学習の進み具合を表している。１つの矢印は、１回のイテレーションを表している。

　Ｂs＝１６ｋでの学習は、Ｂｓ＝２５６での学習に比べて、各イテレーションで、６４倍のデータを処理する。例えば、図１５に示したＢs＝１６ｋでの学習時のイテレーションＩ１１で処理されるデータ量は、Ｂｓ＝２５６での学習時のイテレーションＩ２１で処理するデータ量の６４回分のデータ量となる。

　Ｂs＝１６ｋでの学習時のイテレーションＩ１１の終了時に、LR Decayが行われたとする。同じく、Ｂs＝２５６での学習時のイテレーションＩ２１の終了時に、LR Decayが行われたとする。

　Ｂs＝１６ｋでの学習においては、イテレーションＩ１１の更新量Δｗｔが用いられ、イテレーションＩ１１の次のイテレーションＩ１２の学習が行われる。このことを換言すると、イテレーションＩ１２の学習時には、イテレーションＩ１１の学習時の影響が残ることになる。さらに換言すれば、イテレーションＩ１２のときには、Ｂｓ＝１６ｋのため、１６ｋのデータが処理されるが、この１６ｋのデータに対して、イテレーションＩ１１時の影響が残ることになる。

　Ｂs＝１６ｋでの学習においては、LR Decay前のデータの影響を受けるLR Decay後のデータ量が大きい。そのため、図１５に示した例では、イテレーションＩ１２の次のイテレーションＩ１３においても、イテレーションＩ１１（LR Decay前）の影響を受けると考えられる。すなわち、１イテレーションで処理するデータ量が大きいと、LR Decay後も、長い間、LR Decay前の影響を受け、そのために、LR Decay後もエラー率の下がりが悪くなると考えられる。

　比較のため、Ｂs＝２５６での学習時についても説明を加える。Ｂs＝２５６での学習においては、イテレーションＩ２１の更新量Δｗｔが用いられ、イテレーションＩ２１の次のイテレーションＩ２２の学習が行われる。このことを換言すると、イテレーションＩ２２の学習時には、イテレーションＩ２１の学習時の影響が残ることになる。さらに換言すれば、イテレーションＩ２２のときには、Ｂｓ＝２５６のため、２５６のデータが処理されるが、この２５６のデータに対して、イテレーションＩ２１時の影響が残ることになる。

　Ｂs＝２５６での学習においては、LR Decay前のデータの影響を受けるLR Decay後のデータ量は、Ｂｓ＝１６ｋでの学習時よりも小さい。図１５に示した例では、LR Decay前のイテレーションＩ２１の影響は、LR Decay後のイテレーションＩ２２で処理される２５６個のデータに残る。影響を受けるデータが、２５６個で済むため、イテレーションＩ２２後のイテレーションＩ２３では、イテレーションＩ２１の影響は小さくなる。

　Ｂs＝２５６での学習時は、LR Decay前の影響を受けるデータ数が少ないため、LR Decay前の影響は徐々に薄まり、比較的早い段階で、LR Decay前の影響は受けなくなると考えられる。よって、LR Decay後は、エラー率が下がる。

　このように、１イテレーションで処理するデータ量が多くなると、換言すれば、バッチサイズが大きくなると、LR Decay前の影響（古いLR Decayの影響）が残り続けるため、LR Decay後のエラー率の下がり方が悪くなると考えられる。

　また、図１５に示したようなケースの場合、バッチサイズが６４倍となっているため、Ｂs＝１６ｋでの学習時におけるLC Decay後のエラー率の低下を、Ｂs＝２５６での学習時におけるLC Decay後のエラー率の低下と同程度の低下を得たい場合、Ｂs＝１６ｋでの学習では、Ｂs＝２５６での学習時の６４倍のデータを処理する必要があると考えられる。

　＜LR Decay後のエラー率を下げる方法について＞
　再度式（２）を参照する。Momentum SGDでは、慣性項（αΔｗｔ）で、前回の更新量Δｗｔをα倍しているため、前回の影響を受けることになる。この慣性項のうち、Δｗｔは、前回の更新量であるため調整することはできない値である。αはパラメータであるため、変更可能である。例えば、パラメータαを、１にした場合、前回の更新量Δｗｔがそのまま使われ、０にした場合、前回の更新量Δｗｔは使われないことになる。

　すなわち、パラメータαを調整することで、慣性項（αΔｗｔ）の値を調整することができる。換言すれば、パラメータαを調整することで、LR Decay前の影響を、どの程度残すかを調整できるようになる。

　図１６を参照して、パラメータαを調整した場合の学習の進み具合について説明する。図１６は、図１５の上図と同様であり、Ｂs＝１６ｋでの学習の進み具合を表す。タイミングＴ１１において、LR Decayが実行されたとする。

　Ｂs＝１６ｋでの学習においては、イテレーションＩ１１の更新量Δｗｔが用いられ、イテレーションＩ１１の次のイテレーションＩ１２’の学習が行われる。イテレーションＩ１２’の学習時には、更新量Δｗｔに乗算するパラメータαの値を小さく設定する。パラメータαの値を小さくすることで、更新量Δｗｔの影響を小さくすることができる、すなわち、イテレーションＩ１２’の学習時におけるイテレーションＩ１１の更新量Δｗｔの影響を小さくすることができる。

　Ｂs＝１６ｋでの学習においては、LR Decay前のデータの影響を受けるLR Decay後のデータ数が多い。しかしながら、パラメータαを小さくすることで、LR Decay前のデータによる影響力そのものを小さくすることができるため、LR Decay前のデータの影響を受けるLR Decay後のデータ数が多くても、影響自体が小さいため、図１５を参照して説明したようなことは発生しないように抑制することができる。

　すなわち、パラメータαを調整することで、１イテレーションで処理するデータ量が大きくなっても、LR Decay後の長い間、LR Decay前の影響が残ってしまうようなことを防ぐことができ、LR Decay後もエラー率の下がりが悪くなるといったことが発生するようなことを抑制することができる。

　図１６に示した例では、パラメータαを調整することで、イテレーションＩ１２’の次のイテレーションＩ１３’において、イテレーションＩ１１（LR Decay前）の影響を受けるようなことを防ぐ（低減する）ことができる。

　＜パラメータαの設定の仕方について＞
　このように、LR Decayしたタイミング以降、パラメータαを調整する場合、そのパラメータαの調整の仕方について説明を加える。まず、調整期間をどの程度にするかについて説明する。

　図１７を参照してパラメータαの調整期間について説明する。イテレーションＩ５１の終了後のタイミングＴ１１において、LR Decayが実行されたとする。図１７のＡは、パラメータαの調整を、LR Decay後の１イテレーションのみに行う場合を示し、図１７のＢは、パラメータαの調整を、LR Decay後の数イテレーションにわたって行う場合を示す。

　図１７のＡを参照するに、イテレーションＩ５１のときのパラメータαの値はα１であるとする。このα１は、パラメータαを調整しないときに用いられる値であり、デフォルト値とされている。通常の学習時には、デフォルト値であるα１が、パラメータαの値として用いられる。また、α１は、例えば、０．９である。

　LR Decay後のイテレーションＩ５２におけるパラメータαは、調整対象とされる。ここでは、イテレーションＩ５２におけるパラメータαは、α２に設定されるとする。このα２は、α１とは異なる値である。また、例えば、α２は、α２＜α１を満たす値とすることができる。例えば、α２は、０や、０．０１など、０に近い値とすることができる。

　イテレーションＩ５２の次のイテレーションＩ５３においては、パラメータαは、元のα１に戻される。また、イテレーションＩ５３以降のイテレーションにおいても、新たなLR Decayが実行されるまでは、α１が用いられて学習が行われる。

　このように、パラメータαの調整は、LR Decay後の１イテレーションのみで行われるようにしても良い。

　図１７のＢを参照するに、イテレーションＩ５１のときのパラメータαの値はデフォルト値であるα１である。LR Decay後のイテレーションＩ５２におけるパラメータαは、調整対象とされる。図１７のＢに示した例では、イテレーションＩ５２におけるパラメータαは、α２に設定されるとする。このα２は、図１７のＡを参照して説明したα２と同じく、α１とは異なる値である。また、例えば、α２は、α２＜α１を満たす値とすることができる。また、例えば、α２は、０や、０．０１など、０に近い値とすることができる。

　イテレーションＩ５２の次のイテレーションＩ５３におけるパラメータαは、α３に設定される。このα３は、α１やα２とは異なる値である。また、例えば、α３は、α２＜α３＜α１を満たす値とすることができる。さらに、イテレーションＩ５３の次のイテレーションＩ５４におけるパラメータαは、α４に設定される。このα４は、α１、α２、α３とは異なる値である。また、例えば、α４は、α２＜α３＜α４＜α１を満たす値とすることができる。

　イテレーションＩ５４の次のイテレーションＩ５５におけるパラメータαは、α１に戻される。また、イテレーションＩ５５以降のイテレーションにおいても、新たなLR Decayが実行されるまでは、α１が用いられて学習が行われる。

　この場合、イテレーションＩ５２、イテレーションＩ５３、イテレーションＩ５４の３つのイテレーションにおいて、パラメータαの調整が行われる。また、この場合、３つのイテレーションで、パラメータαの値が徐々に大きくなり、４つめのイテレーションで元の値（デフォルト値）に戻される例を示した。

　または、α２＝α３＝α４でも良く、パラメータαが調整されている期間中は、同一の値が用いられるようにしても良い。

　このように、パラメータαの調整は、LR Decay後の数イテレーションで行われるようにしても良い。また、パラメータαの調整が、LR Decay後の数イテレーションにわたって行われるようにした場合、値を調整するイテレーションの数は、上記した場合は３であるが、３以外の数であってももちろん良い。

　パラメータαの調整を、LR Decay後の１イテレーションで行う場合、またはLR Decay後の数イテレーションで行う場合、αの値は、予め設定されている値が用いられるようにしても良いし、状況により適切な値が計算され、設定されるようにしてもよい。αの値を、状況により設定する場合については、後述する。

　なお、分散学習で、複数の計算ノード１０（ＧＰＵ１４）で学習を行っているような場合であっても、各計算ノード１０でパラメータαの計算が可能であるため、計算ノード１０間でのパラメータαの値を同期する必要はない。よって、パラメータαの値を可変とした場合であっても、パラメータαを同期するための時間が必要となるといったことはなく、学習時間が延びるようなことはない。

　パラメータαの設定について、さらに説明を加える。パラメータαの設定の仕方としては大きく分けて、ユーザの指示により設定する仕方（ユーザが種々のパラメータを設定し、そのパラメータに基づきパラメータαなどが設定される場合）と、計算ノード１０側で自動的に設定する仕方とに分けられる。

　なお、自動とは、ユーザの手を煩わすことなく計算ノード１０側で設定する場合を意味し、ユーザ側の指示に基づき設定する手動に対する反意語の意味であるとする。

　パラメータαが、ユーザにより設定される場合、例えば、図１８に示すような画面（ユーザインタフェース）がユーザに提示され、その画面が参照されながらパラメータαが設定される。

　図１８に示した画面例について説明を加える。図１８に示した画面は、例えば、計算ノード１０の出力部１８（図１）としてのディスプレイ１０１上に表示される。

　画面左上には、プロジェクト名を入力するプロジェクト名入力欄１１１が設けられている。ユーザは、画面左上に表示されている“プロジェクト設定”という文言と、その下に“プロジェクト名”との文言を参照することで、プロジェクト名を設定し、プロジェクト名入力欄１１１に入力すれば良いことを認識し、プロジェクト名を入力する。図１８に示した例では、“プロジェクトＡ”といったプロジェクト名が入力されている。

　画面左下には、学習環境に関する各種のパラメータを設定する設定画面が表示されている。“学習環境設定”という文言が表示されていることから、ユーザは、学習環境に関する設定を行うことを認識できる。学習環境として設定できる項目として、“利用するＧＰＵ数”、“各ＧＰＵでのバッチサイズ”、“最大学習ｅｐｏｃｈ数”という項目が表示されている。

　“利用するＧＰＵ数”の右側には、分散学習を行うＧＰＵ数を入力するＧＰＵ数入力欄１１２が表示されている。図１８に示した例では、“１２８”といった数値が入力されている。

　“各ＧＰＵでのバッチサイズ”の右側には、ユーザが、１つのＧＰＵで実行させたいバッチサイズを入力するバッチサイズ入力欄１１３が表示されている。図１８に示した例では、“９０”といった数値が入力されている。

　“最大学習ｅｐｏｃｈ数”の右側には、ユーザが、最大のエポック数を入力するエポック数入力欄１１４が表示されている。図１８に示した例では、“９０”といった数値が入力されている。

　画面右側は、学習を最適に行うための各種のパラメータ等を設定する“学習最適化設定”画面が表示されている。“学習最適化設定”画面の上部には、“Learning Rate Decayを行う”という文言が表示され、その文言の左隣にチェック欄１１５が表示されている。ユーザは、学習時に、“Learning Rate Decay”を実行させたい場合、チェック欄１１５をチェックする。図１８では、チェック欄１１５がチェックされている状態を表している。

　チェック欄１１５がチェックされた場合、“Learning Rate Decay”に関する設定が行える状態となる。ユーザは、“Learning Rate Decay”が実行されるタイミングを設定できる。“タイミングを手動設定”という項目と、“タイミングを自動設定”という項目が表示されており、それぞれの項目の左側には、どちらかの項目を選択するためのチェック欄１１６が表示されている。

　図１８に示した例では、“タイミングを手動設定”という項目が選択されている例を示している。“タイミングを手動設定”という項目の右側には、タイミング入力欄１１７が表示されている。タイミング入力欄１１７は、“タイミングを手動設定”という項目が選択されているときに、数値入力が可能とされる。図１８に示した例では、“３０，４５，７５”といった数値が入力されている例を示している。

　“Learning Rate Decayを行う”というチェック欄１１５がチェックされた場合、“Decay後の値のLRの割合”という項目に対して数値を入力する割合入力欄１１８も有効にされる。割合入力欄１１８には、Learning Rate Decayを行うとき低減率が入力される。図１８に示した例では、“０．１”との数値が入力されている。

　割合入力欄１１８に入力される値は、式（２）における学習係数ηの値に関する値であり、Learning Rate Decayが実行された後の学習係数ηを設定するときの値である。“０．１”との数値が入力された場合、Learning Rate Decay後の学習係数ηの値は、Learning Rate Decay前の学習係数ηの値に０．１を乗算した値（１／１０にした値）に設定される。

　“学習最適化設定”画面の下部には、“Decay時のMomentum調整を行う”という文言が表示され、その文言の左隣にチェック欄１１９が表示されている。ユーザは、学習時に、“Learning Rate Decay”を実行させ、その“Learning Rate Decay”後に、Momentumの調整、すなわち、パラメータαの調整を行いたい場合、チェック欄１１９をチェックする。図１８では、チェック欄１１９がチェックされている状態を表している。

　チェック欄１１９がチェックされた場合、“Decay時のMomentum調整”に関する設定が行える状態となる。ユーザは、“Decay時のMomentum調整”を固定値とするか、自動調整するかを選択できる。“固定値にする”という項目と、“自動調整する”という項目が表示されており、それぞれの項目の左側には、どちらかの項目を選択するためのチェック欄１２０が表示されている。

　図１８に示した例では、“固定値にする”という項目が選択されている例を示している。“固定値にする”という項目の下側には、α値入力欄１２１が表示されている。α値入力欄１２１は、“固定値にする”という項目が選択されているときに、数値入力が可能とされる。図１８に示した例では、“０．０１”といった数値が入力されている例を示している。

　なお、パラメータαの値は、上記したように、デフォルト値以下に設定される必要がある。例えば、デフォルト値が、０．９である場合、パラメータαの値は、０から０．９までの値に設定される。よって、ユーザが、これらの範囲外の数値を入力した場合には、そのことをユーザに認識させるメッセージが表示されるようにしても良い。または、ユーザが直接数値を入力するのではなく、選択肢が表示され、その表示された選択肢から選択されるようにしても良い。

　または、設定のヒントとなるような表示もされるようにしても良い。例えば、“０に近い値が良いです”、“０～０．１の数値が良いです”、“設定可能範囲０～０．１”といったようなメッセージが表示されるようにしても良い。

　このα値入力欄１２１に入力された値が、LR Decay後のイテレーションにおいて用いられるパラメータαの値とされる。

　図１８に示したような画面において、“自動調整”という項目が選択された場合、計算ノード１０側で、α値を算出し、設定する。

　パラメータαが、手動で設定される場合、図１８に示したような画面において、ユーザが、“Decay時のMomentum調整する”というチェック欄１１９にチェックを入れ、“固定値にする”という項目を選択し、α値入力欄１２１に値を入力することで行われる。このように設定されたα値は、図１７のＡを参照して説明したように、LR Decay後の１イテレーションのみ適用される。または図１７のＢを参照して説明したように、LR Decay後の数イテレーションに適用される。

　設定されたα値を、LR Decay後の数イテレーションに適用するようにした場合、この数イテレーションを、何イテレーションにするかは、固定値であっても良いし、ユーザにより設定されるようにしても良い。

　ユーザにより、設定されたα値が適用されるイテレーション数が設定される場合、図１９に示すような画面が、ユーザに提示される。図１９に示した画面は、図１８に示した画面に、イテレーション数を入力する部分が追加され、その他の部分は、同一である。

　図１９に示した画面のうち、右下側の画面には、“調整期間を設定する”との文言が表示され、その文言の左隣にチェック欄１３１が表示されている。ユーザは、パラメータαを調整する期間（イテレーション数）を入力したい場合、チェック欄１３１をチェックする。図１９では、チェック欄１３１がチェックされている状態を表している。

　チェック欄１３１がチェックされた場合、期間調整に関する設定が行える状態となる。ユーザは、パラメータαを調整したい期間を、期間入力欄１３２に入力する。期間入力欄１３２は、“調整期間を設定する”という項目がチェックされてるとき、数値入力が可能とされる。図１９に示した例では、“３”といった数値が入力されている例を示している。

　例えば、図１９に示した例のように、タイミング入力欄１１７に、“３０、４５、７５”といった数値が入力され、割合入力欄１１８に、“０．１”といった数値が入力され、α値入力欄１２１に、“０．０１”といった数値が入力され、期間入力欄１３２に、“３”といった数値が入力された場合、以下のように学習が行われる。

　学習時において、エポック数が３０、４５、７５のタイミングで、LR Decayが実行される。LR Decayが実行されることで、学習係数ηの値が、０．１乗算した値に変更される。また、LR Decayが実行された後の３イテレーションの期間は、パラメータαが調整され、その調整されたパラメータαの値は、“０．０１”とされる。

　また、図１７のＢを参照して説明したように、パラメータαを調整する期間を数イテレーションとした場合、その期間の間、同一のパラメータαが用いられても良いが、徐々にデフォルト値に近づけるようにしても良い。

　例えば、α値入力欄１２１に、“０．０１”といった数値が入力され、期間入力欄１３２に、“３”といった数値が入力されていた場合、またデフォルト値が０．９である場合、LR Decay直後のイテレーションのα値は、“０．０１”であり、４イテレーション目のα値は、“０．９”であり、２イテレーション目と、３イテレーション目は、０．０１乃至０．９の間の数値が設定される。

　数イテレーションの間、設定された値から毎回一定の割合でデフォルト値に近づけられるようにパラメータαの値が調整されるようにしても良い。また、デフォルト値に近づける方法として、設定されたα値とデフォルト値を２点とする一次関数を求め、その一次関数から、α値が算出されるようにしても良い。

　再度、図１８または図１９を参照する。ユーザに提示される画面において、“Decay時のMomentum調整を行う”という項目のチェック欄１１９がチェックされ、“自動調整する”という項目が選択されている場合、パラメータαの調整は、計算ノード１０側で行われる。具体的には、計算ノード１０のパラメータ計算部３３（図２）において、パラメータαの値が算出される。

　パラメータ計算部３３は、リファレンス時のMomentumによる前の状態の引きずり具合を概算した値からパラメータαの値を算出する。例えば、図１５などを参照した説明と同じく、バッチサイズ（Ｂs）＝２５６の場合と、Ｂs＝１６ｋの場合を例に挙げて、パラメータαの算出について説明する。Ｂｓ＝２５６がリファレンスに該当する。

　リファレンス（Ｂｓ＝２５６）に対して、Ｎ倍（６４倍、Ｂｓ＝１６ｋ）のバッチサイズとなる場合を想定する。分散学習時は、LR Decay直後の１回のイテレーションで処理されるデータ量は、リファレンスのＮ倍となる。よって、リファレンスでのＮ回分のイテレーションでLR Decay前の状態を引きずる量を概算すればよい。

　１回目に引きずる量はαとなる。２回目は、α＾２、３回目は、α＾３、４回目は、α＾４となり、Ｎ回目では、α＾（Ｎ－１）となる。よってＮ回分のイテレーションでの引きずり量は、次式（３）で概算値を算出することができる。

　これがパラメータαを概算で算出する方法の一例である。パラメータαのデフォルト値を、α＝０．９とし、リファレンスのバッチサイズを２５６とし、分散学習時のバッチサイズを１６ｋとした場合、式（３）に具体的な数値を代入すると、以下の式（４）のように表せる。

　式（４）において、６４は、１６ｋを２５６で除算した値であり、式（３）におけるＮに該当する値である。式（４）において、１０は、LR Decay時の学習係数ηの低減率であり、０．１（＝１／１０）に低減すると設定されている場合を例示しているため、その分だけ削減している。

　式（４）に基づいて算出された値である０．０１４は、LR Decay直後のイテレーションのパラメータαの値として用いられる。

　図２０に示すように、LR Decayが、タイミングＴ１１において実行されたとする。LR Decayが実行される直前のイテレーションＩ７１のときのパラメータαの値は０．９である。LR Decayが実行された直後のイテレーションＩ７２のときのパラメータαの値は、式（４）に基づき算出された値である０．０１４である。

　LR Decay後の２回目以降のイテレーションでは、リファレンス時のＮ＋１乃至２Ｎ回目のイテレーション分が上記した場合と同様に算出されるようにしても良い。または、２回目以降のイテレーションでは、式（３）とは異なる演算式でパラメータαの値が算出されるようにしても良い。

　例えば、図２０に示したように、イテレーションＩ７３のパラメータαの値として、０．８９と算出された場合、パラメータαのデフォルト値である０．９に近い値となっている。このように、デフォルト値に近い値が算出された場合、そのイテレーション以降は、デフォルト値をそのまま利用する、換言すれば、デフォルト値に戻しても良い。

　また、２回目以降のイテレーションでは、パラメータαの値として暫定値が用いられるようにしても良い。上記したように、LR Decay後の１回目のイテレーションのパラメータαの値として、０．０１４などの０に近い値や０を用いた場合、LR Decay後の１回目のイテレーションにおいて、LR Decay前のイテレーションの影響は十分に低減され、２回目以降のイテレーションでは、LR Decay前のイテレーションの影響はあまり受けないと考えられる。このような場合、２回目以降のイテレーションのパラメータαは、例えばデフォルト値に近い値であり、予め設定されている値が用いられるようにしても良い。

　パラメータαは、学習速度に関係する値であり、小さい値だと、学習速度が速まらない可能性がある。よって、パラメータαが、長い間、０に近い値が用いられると、学習速度が速まらない可能性があるため、できるだけ早い段階で、デフォルト値に戻されるのが良い。すなわち、LR Decay前のイテレーションの影響が十分に低減された早い段階で、パラメータαはデフォルト値（またはデフォルト値に近い値）に戻されるようにする。

　このように、LR Decay後のイテレーションに用いるパラメータαの値は、イテレーション毎に所定の演算式により算出され、またデフォルト値に近い値になるまで算出された値が用いられるようにすることができる。また、LR Decay後の１回目または所定の回数目までのイテレーションに用いるパラメータαの値は、所定の演算式により算出されるようにし、２回目または所定の回数目以降のイテレーションに用いるパラメータαの値は、暫定値が用いられるようにしても良い。

　このように、LR Decay後のイテレーションに用いるパラメータαの値を演算式により求めるか、演算式と暫定値により求めるかは、ユーザにより設定されるようにしても良い。例えば、図１８に示した画面例において、“自動調整する”という選択肢の下側に、さらに“演算式により調整する”という選択肢と、“演算式と暫定値を用いて調整する”という選択肢を設け、ユーザが、どちらかを選択できる仕組みを設けても良い。

　このように、LR Decay後のイテレーションに用いるパラメータαを調整することで、図１１を参照して説明したような、LR Decayを実行してもエラー率が下がらず、学習が加速しないというような状況が発生することを防ぐことができる。

　本出願人は、上記した方法により、LR Decay後のイテレーションに用いるパラメータαを調整することで学習が加速することを確認した。図２１に実証結果の一例を示す。図２１に示したグラフの縦軸は、エラー率を表し、横軸は、エポック数を表す。また、図２１に示したグラフのうち、実線は、リファレンス（分散学習ではない場合）のグラフであり、粗い点線は、パラメータαを調整しない場合（パラメータαを固定値とした場合）のグラフであり、細かい点線は、パラメータαを調整した場合（パラメータαを可変値とした場合）のグラフである。

　リファレンスのグラフは、バッチサイズが２５６であり、ＧＰＵ数が８個であり、パラメータαが０．９で固定である場合に得られたグラフである。パラメータαを固定値とした場合のグラフは、バッチサイズが３４ｋ（３４８１６）であり、ＧＰＵ数が１０８８個であり、パラメータαが０．９で固定である場合に得られたグラフである。パラメータαを可変値とした場合のグラフは、バッチサイズが３４ｋ（３４８１６）であり、ＧＰＵ数が１０８８個であり、LR Decay直後以外のときのパラメータαが０．９であり、LR Decay直後のときのパラメータαが０である場合に得られたグラフである。

　リファレンスのグラフを見るに、LR DecayがタイミングＴ２１において実行されると、エラー率が低下し、学習が加速していることが読み取れる。このリファレンスと同じく、本技術を適用して、パラメータαを可変とした場合のグラフを見るに、LR DecayがタイミングＴ２１において実行されると、エラー率が低下し、学習が加速していることが読み取れる。

　参考のために記載した、パラメータαを固定値とした場合のグラフを見るに、LR DecayがタイミングＴ２１において実行されても、エラー率は低下せず、学習が鈍化していることが読み取れる。

　これらのことから、パラメータαを可変とした場合、LR Decayが実行されると、エラー率が低下し、学習が加速することが読み取れる。

　＜計算ノードの処理について＞
　上述したように、パラメータαの可変値とした場合の計算ノード１０の動作について説明する。ここでは、分散学習を行う複数の計算ノード１０のうちの１台の計算ノード１０が実行する処理であり、上記したパラメータαの調整に係わる処理について説明を加える。

　計算ノード１０としては、例えば、図１に示したハードウエア構成を有し、図２に示した計算ノード１０のような機能構成を有する計算ノード１０を用いることができる。

　ステップＳ１１において、図１８または図１９に示した画面が、ユーザに提示される。例えば、図１９に示した画面がユーザに提示されることで、ユーザは、LR Decayを行うか否かを設定したり、Decay後の値の学習係数ηの低減率を設定したり、Decay時のMomentum調整を行うか否かを設定したり、パラメータαの値を入力したり、パラメータαを調整する期間を設定したりする。

　計算ノード１０の例えば、ＣＰＵ１１（図１）は、図１８または図１９に示した画面が、出力部１８を構成するディスプレイ１０１に表示されるように表示を制御する。またＣＰＵ１１は、入力部１７としてのキーボードやマウス（いずれも不図示）を操作して入力される各種の値の入力を受け付ける。

　ステップＳ１２において、設定されたパラメータによる学習が開始される。図１８または図１９に示した画面を参照して、ユーザが設定した各種のパラメータに基づいて、学習が行われるようなプログラムが生成され、そのプログラムに基づく計算ノード１０における処理が開始される。例えば、パラメータ計算部３３（図２）は、LR Decayを実行するタイミングとして設定されたタイミングで、LR Decayが実行されるように、学習更新部３５に指示を出す。

　ステップＳ１３において、LR Decayが実行されるタイミングである場合、LR Decayが実行される。LR Decayが実行されると、ステップＳ１４において、パラメータαが調整される。ユーザが、図１９に示したような画面を参照し、Decay時のMomentum調整を行うとし、そのα値は、固定値とし、例えば、０．０１といった数値が設定されていた場合、この設定されている数値に基づき、パラメータ計算部３３は、パラメータαを調整する。

　ステップＳ１５において、変更されたパラメータαで学習が行われる。この学習が行われる期間は、１イテレーションであるか、数イテレーションである。例えば、図１９に示したような画面を参照し、調整期間がユーザにより設定されていた場合、その設定されている期間（イテレーション数）だけ、調整されたパラメータαで学習が行われる。

　そして、指定された期間だけ学習が行われると、ステップＳ１６に処理が進められ、パラメータαがデフォルト値に戻され、学習が継続される。

　このように、計算ノード１０においては、ユーザインタフェースを介して設定されたパラメータに基づき、処理が行われる。

　本技術によれば、学習の収束の劣化を防ぐことができる。特に、Learning Rate Decay後の学習を加速させることができる。また、分散学習時にも有効である。

　＜記録媒体について＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　上述した一連の処理をプログラムにより実行するコンピュータは、例えば図１に示した計算ノード１０と基本的に同様の構成とすることができる。図１に示した計算ノード１０と同様に構成されるコンピュータでは、ＣＰＵ１１が、例えば、記憶部１９に記憶されているプログラムを、入出力インタフェース１６及びバス１５を介して、ＲＡＭ１３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ１１）が実行するプログラムは、例えば、パッケージ記録媒体等としてのリムーバブル記録媒体２２に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体２２をドライブ２１に装着することにより、入出力インタフェース１６を介して、記憶部１９にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０で受信し、記憶部１９にインストールすることができる。その他、プログラムは、ＲＯＭ１２や記憶部１９に、予めインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　なお、本技術は以下のような構成も取ることができる。
（１）
　所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部と、
　前記学習部の演算に用いるパラメータを調整する調整部と
　を備え、
　前記調整部は、前記演算式に含まれる学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、前記学習係数を低減する前の値よりも小さい値に調整する
　情報処理装置。
（２）
　前記演算式は、Momentum SGD（Stochastic Gradient Descent）における式である
　前記（１）に記載の情報処理装置。
（３）
　前記所定のパラメータは、前記Momentum SGDの慣性項に含まれるパラメータである
　前記（２）に記載の情報処理装置。
（４）
　前記調整部は、前記学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、０に近い値に調整する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記調整部は、前記学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、０に調整する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記調整部は、前記学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、前記バッチサイズと前記パラメータの値を用いた所定の式に基づき算出される値に調整する
　前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記調整部は、前記学習係数を低減した直後の１イテレーションだけ、前記所定のパラメータの値を調整する
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記調整部は、前記学習係数を低減した直後の数イテレーションの期間、前記所定のパラメータの値を調整する
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記調整部は、前記所定のパラメータを小さい値に調整した後の数イテレーションにわたって、徐々に値を大きくし、デフォルト値に戻す
　前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記学習係数を低減した直後の前記所定のパラメータの値は、ユーザにより設定された値である
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記学習係数を低減するタイミングは、ユーザにより設定されたタイミングである
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　機械学習を行う情報処理装置が、
　所定のバッチサイズで、所定の演算式に基づき前記機械学習を行い、
　前記機械学習の演算に用いるパラメータを設定し、
　前記演算式に含まれる学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、学習係数を低減する前の値よりも小さい値に調整する
　情報処理方法。
（１３）
　所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部を制御するためのプログラムであり、
　ユーザインタフェースで設定される、
　前記演算式に含まれる学習係数を低減するタイミングと、
　前記タイミング直後に適用される前記演算式に含まれる所定のパラメータの値と、
　前記所定のパラメータの値を適用する期間と
　に基づき前記機械学習が行われるように前記学習部を制御するためのプログラムを生成する
　プログラム生成方法。

　１０　計算ノード，　１１　ＣＰＵ，　１２　ＲＯＭ，　１３　ＲＡＭ，　１５　バス，　１６　入出力インタフェース，　１７　入力部，　１８　出力部，　１９　記憶部，　２０　通信部，　２１　ドライブ，　２２　リムーバブル記録媒体，　３１　学習データ保存部，　３２　学習データ前処理部，　３３　パラメータ計算部，　３４　ＤＮＮモデル保存部，　３５　学習更新部，　３６　勾配情報保存部，　５１　パラメータサーバ，　６１　ＤＮＮモデル保存部，　６２　更新部，　７１　ネットワーク，　１０１　ディスプレイ，　１１１　プロジェクト名入力欄，　１１２　ＧＰＵ数入力欄，　１１３　バッチサイズ入力欄，　１１４　エポック数入力欄，　１１５　チェック欄，　１１６　チェック欄，　１１７　タイミング入力欄，　１１８　割合入力欄，　１１９　チェック欄，　１２０　チェック欄，　１２１　α値入力欄，　１３１　チェック欄，　１３２　期間入力欄

Claims

　所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部と、
　前記学習部の演算に用いるパラメータを調整する調整部と
　を備え、
　前記調整部は、前記演算式に含まれる学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、前記学習係数を低減する前の値よりも小さい値に調整する
　情報処理装置。
　前記演算式は、Momentum SGD（Stochastic Gradient Descent）における式である
　請求項１に記載の情報処理装置。
　前記所定のパラメータは、前記Momentum SGDの慣性項に含まれるパラメータである
　請求項２に記載の情報処理装置。
　前記調整部は、前記学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、０に近い値に調整する
　請求項１に記載の情報処理装置。
　前記調整部は、前記学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、０に調整する
　請求項１に記載の情報処理装置。
　前記調整部は、前記学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、前記バッチサイズと前記パラメータの値を用いた所定の式に基づき算出される値に調整する
　請求項１に記載の情報処理装置。
　前記調整部は、前記学習係数を低減した直後の１イテレーションだけ、前記所定のパラメータの値を調整する
　請求項１に記載の情報処理装置。
　前記調整部は、前記学習係数を低減した直後の数イテレーションの期間、前記所定のパラメータの値を調整する
　請求項１に記載の情報処理装置。
　前記調整部は、前記所定のパラメータを小さい値に調整した後の数イテレーションにわたって、徐々に値を大きくし、デフォルト値に戻す
　請求項１に記載の情報処理装置。
　前記学習係数を低減した直後の前記所定のパラメータの値は、ユーザにより設定された値である
　請求項１に記載の情報処理装置。
　前記学習係数を低減するタイミングは、ユーザにより設定されたタイミングである
　請求項１に記載の情報処理装置。
　機械学習を行う情報処理装置が、
　所定のバッチサイズで、所定の演算式に基づき前記機械学習を行い、
　前記機械学習の演算に用いるパラメータを設定し、
　前記演算式に含まれる学習係数を低減したとき、前記演算式に含まれる所定のパラメータの値を、学習係数を低減する前の値よりも小さい値に調整する
　情報処理方法。
　所定のバッチサイズで、所定の演算式に基づき機械学習を行う学習部を制御するためのプログラムであり、
　ユーザインタフェースで設定される、
　前記演算式に含まれる学習係数を低減するタイミングと、
　前記タイミング直後に適用される前記演算式に含まれる所定のパラメータの値と、
　前記所定のパラメータの値を適用する期間と
　に基づき前記機械学習が行われるように前記学習部を制御するためのプログラムを生成する
　プログラム生成方法。