JP2021197108A

JP2021197108A - 学習プログラム、学習方法および情報処理装置

Info

Publication number: JP2021197108A
Application number: JP2020105655A
Authority: JP
Inventors: 靖原; Yasushi Hara; 明彦笠置; Akihiko Kasaoki; 匠檀上; Takumi Danjo; 雄高甲斐; Taketaka Kai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2021-12-27
Also published as: US20210397948A1; EP3926547A1; CN113822411A

Abstract

【課題】複数の層を含むモデルのパラメータ更新の計算量を削減する。【解決手段】記憶部は、それぞれパラメータを含む複数の層を含むモデルと訓練データとを記憶する。処理部は、訓練データを用いてモデルの出力の誤差を算出し、複数の層それぞれについて、パラメータに対する誤差の勾配を示す誤差勾配を算出し、誤差勾配に基づいてパラメータの値を更新する、ことを反復的に実行する学習処理を開始する。処理部は、複数の層のうちの第１の層に対して、学習処理の第１のイテレーションで算出された第１の誤差勾配と第１のイテレーションより後の第２のイテレーションで算出された第２の誤差勾配との間の差分を算出する。処理部は、差分が閾値未満である場合、第２のイテレーションより後の第３のイテレーションにおいて、第１の層の誤差勾配の算出およびパラメータの値の更新を抑止する。【選択図】図７

Description

本発明は学習プログラム、学習方法および情報処理装置に関する。

情報処理装置を利用したデータ分析として、機械学習が行われることがある。機械学習では、既知の事例を示す訓練データが収集される。情報処理装置は、訓練データを分析して、要因（説明変数や独立変数と言うことがある）と結果（目的変数や従属変数と言うことがある）との間の関係を一般化したモデルを生成する。情報処理装置は、生成されたモデルを用いて、未知の事例についての結果を予測する。例えば、画像に写った物体の種類を判定するための画像認識モデルが生成される。

情報処理装置は、複数の層を含むモデルを生成することがある。例えば、機械学習は、多層ニューラルネットワークを生成する深層学習（ディープラーニング）であることがある。このとき、情報処理装置は、イテレーションを繰り返すことで、各層に含まれるパラメータの最適値を探索することがある。各イテレーションにおいて、情報処理装置は、訓練データを用いてモデルの出力の誤差を評価し、パラメータに対する誤差の勾配である誤差勾配を算出し、誤差勾配に基づいてパラメータの値を更新することがある。例えば、パラメータ最適化に誤差逆伝播法が用いられる。

なお、訓練データに含まれる複数の説明変数のうち、一部の説明変数を自動的に機械学習から除外する特徴フィルタリング方法が提案されている。提案の特徴フィルタリング方法は、１つ前のイテレーションで算出された勾配に基づいて、説明変数の値に対するフィルタリング閾値を決定する。また、多層ニューラルネットワークを生成する機械学習において、一部の層を自動的に削除する学習装置が提案されている。提案の学習装置は、多層ニューラルネットワークの出力に対する寄与度を複数の層それぞれについて算出し、寄与度の小さい層を削除して機械学習を再度実行する。

国際公開第２０１７／１５７１８３号特開２０１９−１８５２７５号公報

複数の層を含むモデルを生成する機械学習では、パラメータの値の収束が全ての層で均等に進行するとは限らない。イテレーション数の増加に伴って、一部の層のパラメータの値が先に収束することがある。例えば、多層ニューラルネットワークでは、入力側の層のパラメータの値が、出力側の層のパラメータの値よりも早く収束することがある。

これに対して従来の機械学習では、各イテレーションにおいて全ての層のパラメータの値が更新される。このため、一部の層では、１回のイテレーションの前後でパラメータの値がほとんど変化しないか全く変化しないことがある。よって、結果的に無駄なパラメータ更新が発生して、機械学習の計算量が過大になっているという問題がある。

そこで、１つの側面では、本発明は、複数の層を含むモデルのパラメータ更新の計算量を削減する学習プログラム、学習方法および情報処理装置を提供することを目的とする。

１つの態様では、コンピュータに以下の処理を実行させる学習プログラムが提供される。それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いてモデルの出力の誤差を算出し、複数の層それぞれについて、パラメータに対する誤差の勾配を示す誤差勾配を算出し、誤差勾配に基づいてパラメータの値を更新する、ことを反復的に実行する学習処理を開始する。複数の層のうちの第１の層に対して、学習処理の第１のイテレーションで算出された第１の誤差勾配と第１のイテレーションより後の第２のイテレーションで算出された第２の誤差勾配との間の差分を算出する。差分が閾値未満である場合、第２のイテレーションより後の第３のイテレーションにおいて、第１の層の誤差勾配の算出およびパラメータの値の更新を抑止する。

また、１つの態様では、コンピュータが実行する学習方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

１つの側面では、複数の層を含むモデルのパラメータ更新の計算量が削減される。

第１の実施の形態の情報処理装置を説明するための図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。多層ニューラルネットワークの構造例を示す図である。機械学習の学習フェーズの例を示す図である。機械学習における予測精度と誤差勾配の変化例を示すグラフである。複数の層の間の誤差勾配のばらつきの例を示す図である。一部の層のパラメータ更新をスキップする例を示す図である。誤差勾配差分の算出例を示すグラフである。情報処理装置の機能例を示すブロック図である。誤差勾配テーブルの例を示す図である。機械学習の手順例を示すフローチャートである。機械学習の手順例を示すフローチャート（続き）である。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明するための図である。
情報処理装置１０は、機械学習によって、訓練データから複数の層を含むモデルを生成する。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０は、コンピュータや機械学習装置などと呼ばれてもよい。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合が「マルチプロセッサ」または単に「プロセッサ」と呼ばれてもよい。

記憶部１１は、モデル１３および訓練データ１５を記憶する。
モデル１３は、説明変数の値から目的変数の値を予測する予測モデルである。モデル１３は、画像から物体のクラスを予測する画像認識モデルであってもよい。モデル１３は、パラメータをそれぞれ含む複数の層を含む。それら複数の層は、直列に接続されていてもよい。モデル１３は、多層ニューラルネットワークであってもよく、畳み込みニューラルネットワークであってもよい。各層のパラメータの値は、機械学習を通じて決定される。パラメータは、多層ニューラルネットワークのエッジの重みであってもよい。

例えば、モデル１３は、層１３ａ，１３ｂ，１３ｃを含む。層１３ｂは層１３ａの次の層であり、層１３ｃは層１３ｂの次の層である。層１３ａはパラメータ１４ａを含む。層１３ｂはパラメータ１４ｂを含む。層１３ｃはパラメータ１４ｃを含む。訓練データ１５は、モデル１３のパラメータ最適化に用いられるデータセットである。訓練データ１５は、教師ラベルがそれぞれ付与された複数のサンプルを含む。訓練データ１５は、物体のクラスを示すラベルがそれぞれ付与された複数の画像を含んでもよい。

処理部１２は、訓練データ１５を用いてモデル１３のパラメータ１４ａ，１４ｂ，１４ｃを最適化する学習処理１６を実行する。学習処理１６では、処理部１２は、以下に説明するイテレーションを反復的に実行する。処理部１２は、モデル１３に対して誤差逆伝播法を実行してもよい。各イテレーションにおいて、処理部１２は、訓練データ１５に含まれる入力データをモデル１３に入力し、モデル１３の出力と訓練データ１５に含まれる教師ラベルとを比較して、モデル１３の出力の誤差を算出する。

次に、処理部１２は、モデル１３に含まれる複数の層それぞれについて、パラメータに対する誤差の勾配を示す誤差勾配を算出する。誤差勾配は、パラメータの値を微少量だけ変化させたときの誤差の変化量を表す。そして、処理部１２は、モデル１３に含まれる複数の層それぞれについて、誤差勾配に基づいてパラメータの値を更新する。例えば、処理部１２は、誤差勾配に学習率を乗じた分だけパラメータの値を変化させる。学習率は、機械学習の挙動を制御するハイパーパラメータであり、ユーザから与えられてもよい。

ここで、学習処理１６の途中において、処理部１２は、モデル１３に含まれる複数の層のうちの一部の層について、誤差勾配の算出およびパラメータの値の更新を抑止することがある。ある層の処理の抑止は、当該層のスキップと呼ばれてもよい。以下の説明では、処理部１２は、層１３ｂの処理を抑止するか否か判定する。処理部１２は、他の層に対して層１３ｂと同様の判定を行ってもよい。また、処理部１２は、イテレーション１６ａとその後のイテレーション１６ｂとを実行済みであり、その後のイテレーション１６ｃは未実行であるとする。イテレーション１６ｂはイテレーション１６ａの直後であってもよく、イテレーション１６ｃはイテレーション１６ｂの直後であってもよい。

処理部１２は、イテレーション１６ａで層１３ｂに対して算出された誤差勾配１７ａと、イテレーション１６ｂで層１３ｂに対して算出された誤差勾配１７ｂとを取得する。処理部１２は、誤差勾配１７ａと誤差勾配１７ｂとの間の差分１７を算出する。差分１７は、誤差勾配１７ａの絶対値から誤差勾配１７ｂの絶対値を引いた数値でもよい。また、層１３ｂが２以上のパラメータを含む場合、差分１７は、それら２以上のパラメータに対応する２以上の誤差勾配の絶対値の平均の変化量であってもよい。

処理部１２は、差分１７と閾値１８とを比較する。閾値１８は、機械学習の開始前に指定される固定値であってもよい。また、閾値１８は、誤差勾配１７ａ，１７ｂの少なくとも一方に基づいて算出されてもよい。また、閾値１８は、学習処理１６の先頭のイテレーションで層１３ｂに対して算出された誤差勾配（初期誤差勾配）に基づいて算出されてもよい。例えば、閾値１８は初期誤差勾配の５％であってもよい。

差分１７が閾値１８以上である場合、処理部１２は、イテレーション１６ｃにおいて、層１３ｂの誤差勾配の算出およびパラメータ１４ｂの値の更新を実行する。一方、差分１７が閾値１８未満である場合、処理部１２は、イテレーション１６ｃにおいて、層１３ｂの誤差勾配の算出およびパラメータ１４ｂの値の更新を抑止する。よって、イテレーション１６ｃではパラメータ１４ｂの値が変化しない。処理部１２は、層１３ａ，１３ｂ，１３ｃのうち層１３ｂのみ処理を抑止してもよい。誤差逆伝播法の場合、処理部１２は、イテレーション１６ｂで算出された誤差勾配１７ｂを、層１３ｂから層１３ａに伝播させてもよい。これにより、イテレーション１６ｃにおける層１３ａの処理が可能となる。

第１の実施の形態の情報処理装置１０によれば、イテレーション１６ａで算出された層１３ｂの誤差勾配１７ａとイテレーション１６ｂで算出された層１３ｂの誤差勾配１７ｂとの間の差分１７が算出される。そして、差分１７が閾値１８未満である場合、後続のイテレーション１６ｃでは、層１３ｂの誤差勾配の算出およびパラメータ１４ｂの値の更新が抑止される。これにより、パラメータ最適化が他の層よりも早く収束してパラメータの値が改善しなくなった層については、無駄なパラメータ更新が抑止される。よって、機械学習における無駄な処理が削減され、計算量が削減される。また、その結果として、モデル１３を生成する機械学習の実行時間が短縮される。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。

第２の実施の形態の情報処理装置１００は、多層ニューラルネットワークを深層学習によって生成する。多層ニューラルネットワークは、例えば、画像認識に使用される。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００は、コンピュータや機械学習装置などと呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４−１〜１０４−４、ＧＰＵメモリ１０５、画像インタフェース１０６、入力インタフェース１０７、媒体リーダ１０８および通信インタフェース１０９を有する。ＣＰＵ１０１またはＧＰＵ１０４−１〜１０４−４は、前述の処理部１２に対応する。ＲＡＭ１０２、ＨＤＤ１０３またはＧＰＵメモリ１０５は、前述の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサであって、情報処理装置１００を制御するメインプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。また、ＣＰＵ１０１は、ＧＰＵ１０４−１〜１０４−４にプログラムを実行させることがある。ＣＰＵ１０１は、プログラムやデータをＲＡＭ１０２からＧＰＵメモリ１０５に転送し、転送したプログラムをＧＰＵ１０４−１〜１０４−４に実行させ、演算結果をＧＰＵメモリ１０５からＲＡＭ１０２に読み出す。ＣＰＵ１０１は、通信インタフェース１０９を介して他の情報処理装置のＧＰＵにプログラムを実行させることもある。

ＲＡＭ１０２は、プログラムやデータを記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類のメモリを備えてもよい。
ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよい。ＣＰＵ１０１が実行するプログラムには、機械学習を制御するためのプラットフォームプログラムやライブラリプログラムが含まれる。ＧＰＵ１０４−１〜１０４−４が実行するプログラムには、機械学習用のライブラリプログラムやユーザのアプリケーションプログラムが含まれる。

ＧＰＵ１０４−１〜１０４−４は、プログラムの命令を実行するプロセッサであって、特定の種類の演算を高速に実行するためのハードウェアアクセラレータである。ＧＰＵ１０４−１〜１０４−４は、ＣＰＵ１０１からの指示に応じて、異なるデータに対してプログラムを並列に実行する。ＧＰＵ１０４−１〜１０４−４はそれぞれ、プログラムをＧＰＵメモリ１０５から読み出し、自らが担当するデータをＧＰＵメモリ１０５から読み出し、プログラムを実行し、演算結果をＧＰＵメモリ１０５に格納する。

ＧＰＵメモリ１０５は、プログラムやデータを記憶する揮発性半導体メモリである。ＧＰＵメモリ１０５は、ＧＰＵ１０４−１〜１０４−４によって使用される。
画像インタフェース１０６は、ＣＰＵ１０１からの命令に従って、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。情報処理装置１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０７は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。情報処理装置１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０８は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０８は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１などのプロセッサによって実行される。記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３は、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

通信インタフェース１０９は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０９は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

なお、情報処理装置１００のような情報処理装置を複数台用意することで、それら複数の情報処理装置をノードとして含むマルチノードシステムが形成されてもよい。その場合、異なるノードに含まれるＧＰＵが、異なるデータに対してプログラムを並列に実行してもよい。例えば、それぞれ４個のＧＰＵを含む２つのノードがネットワーク１１４に接続され、８個のＧＰＵが並列にプログラムを実行してもよい。何れか１つのノードのＣＰＵが、複数のノードのＧＰＵを制御してもよい。

次に、モデルの構造および機械学習について説明する。
図３は、多層ニューラルネットワークの構造例を示す図である。
第２の実施の形態のモデルは、画像認識用の多層畳み込みニューラルネットワークである。図３のモデル例は、ResNet-50と呼ばれることがある。ただし、後述するスキップ制御は様々な多層ニューラルネットワークに適用可能であり、ResNet-50に限定されない。

図３のモデルは、直列に接続されたブロック２１０，２２０，２３０，２４０，２５０を含む。ブロック２１０は、入力画像を受け付ける先頭ブロックである。ブロック２２０はブロック２１０の次であり、ブロック２３０はブロック２２０の次であり、ブロック２４０はブロック２３０の次であり、ブロック２５０はブロック２４０の次である。

ブロック２１０は、畳み込み層２１１を含む。畳み込み層２１１は、カーネルと呼ばれるフィルタをシフトしながら積和演算を繰り返す畳み込み演算（Convolution）を行う。カーネルのサイズは、例えば、７×７である。畳み込み層２１１の出力は、特徴マップと呼ばれることがある。畳み込み層２１１は、カーネルの１回のシフト量を示すストライドが２に設定されている。このため、畳み込み層２１１が出力する特徴マップの高さおよび幅は、それぞれ入力の高さおよび幅の２分の１になる。

ブロック２２０は、直列に接続されたプーリング層２２１およびボトルネックブロック２２２，２２３，２２４を含む。プーリング層２２１は、隣接する所定個の要素を１つの要素に合成するプーリング演算を行う。プーリング層２２１は、例えば、３×３の正方領域から１つの要素を算出する。プーリング層２２１のプーリング演算は、例えば、３×３個の要素の中から最大値を選択する最大プーリングである。プーリング層２２１は、ストライドが２に設定されている。このため、プーリング層２２１の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１になる。

ボトルネックブロック２２２，２２３，２２４はそれぞれ、入力に対して複数回の畳み込み演算を連続的に行い、畳み込み演算の結果と元の入力とを合成して出力する。ボトルネックブロック２２２，２２３，２２４はそれぞれ、直列に接続された畳み込み層２７１，２７２，２７３を含む。畳み込み層２７１，２７２，２７３はそれぞれ、畳み込み演算を行う。畳み込み層２７２，２７３のストライドは１である。よって、畳み込み層２７２，２７３では、出力の高さおよび幅は、それぞれ入力の高さおよび幅と同一である。

一方、畳み込み層２７１のストライドは、１であることもあるし２であることもある。ストライドが１の場合、畳み込み層２７１の出力の高さおよび幅は、それぞれ入力の高さおよび幅と同一である。ストライドが２の場合、畳み込み層２７１の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。なお、ボトルネックブロック２２２，２２３，２２４では、各畳み込み層のストライドが１に設定され、入力の高さおよび幅は変化しない。最後に、畳み込み層２７３の出力に元の入力が加算される。

ブロック２３０は、直列に接続されたボトルネックブロック２３１，２３２，２３３，２３４を含む。ボトルネックブロック２３１，２３２，２３３，２３４の構造は、ブロック２２０と同様である。ただし、ボトルネックブロック２３１の畳み込み層２７１のストライドが２に設定され、他の畳み込み層のストライドが１に設定される。よって、ブロック２３０の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。

ブロック２４０は、直列に接続されたボトルネックブロック２４１，２４２，２４３，２４４，２４５，２４６を含む。ボトルネックブロック２４１，２４２，２４３，２４４，２４５，２４６の構造は、ブロック２２０，２３０と同様である。ただし、ボトルネックブロック２４１の畳み込み層２７１のストライドが２に設定され、他の畳み込み層のストライドが１に設定される。よって、ブロック２４０の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。

ブロック２５０は、直列に接続されたボトルネックブロック２５１，２５２，２５３を含む。ボトルネックブロック２５１，２５２，２５３の構造は、ブロック２２０，２３０，２４０と同様である。ただし、ボトルネックブロック２５１の畳み込み層２７１のストライドが２に設定され、他の畳み込み層のストライドが１に設定される。よって、ブロック２５０の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。

このように、ブロック２１０，２２０，２３０，２４０，２５０の集合は、１６個のボトルネックブロックと２個のその他の層を含み、全体として５０個の層を含む。ブロック２５０の後段に、直列にプーリング層２６１および全結合層２６２が接続される。

プーリング層２６１は、プーリング演算を行う。プーリング層２６１のプーリング演算は、例えば、隣接する所定個の要素の平均値を算出する平均プーリングである。全結合層２６２は、要素間の隣接関係を保存せずに、プーリング層２６１が出力する要素全体から数値を算出する全結合演算を行う。全結合層２６２は、認識可能な物体のクラス（例えば、１０００個のクラス）それぞれに対するスコアを算出する。あるクラスのスコアは、入力画像に写った物体が当該クラスに属する確率を表す。

図４は、機械学習の学習フェーズの例を示す図である。
ここでは、説明を簡単にするため、ＧＰＵ１０４−１，１０４−２の２個のＧＰＵを用いて機械学習を並列化していると仮定する。情報処理装置１００は、更に多数のＧＰＵを用いて機械学習を並列化することが可能である。

ＧＰＵ１０４−１は、多層ニューラルネットワーク３１０を保持する。ＧＰＵ１０４−２は、多層ニューラルネットワーク３１０と同一の多層ニューラルネットワーク３２０を保持する。多層ニューラルネットワーク３１０，３２０は、例えば、図３に示した多層畳み込みニューラルネットワークである。

多層ニューラルネットワーク３１０，３２０はそれぞれ、複数の層を含む。各層には、複数のノードが並べられている。ノード数は層によって異なってもよい。ある層の前方に他の層がある場合、当該層のノードは１つ前の層のノードとの間にエッジをもつ。ある層の後方に他の層がある場合、当該層のノードは１つ後の層のノードとの間にエッジをもつ。エッジには重みが付与される。重みは、機械学習を通じて値が決定されるパラメータである。なお、ある層のノードが１つ前の層のノードとの間にもつエッジの重みを、当該層に含まれるパラメータと解釈してもよい。または、ある層のノードが１つ後の層のノードとの間にもつエッジの重みを、当該層に含まれるパラメータと解釈してもよい。

画像認識モデルを生成する機械学習には、画像と物体のクラスを示す教師ラベルとをそれぞれ対応付けた複数のサンプルを含む訓練データが使用される。ＧＰＵ１０４−１，１０４−２は、異なるサンプルを並列に処理することで、機械学習を高速化する。

機械学習は、所定回数のエポック（Epoch）を含む。例えば、図３の多層畳み込みニューラルネットワークを生成する機械学習は、５０回〜６０回のエポックを含む。各エポックは、所定回数のイテレーション（Iteration）を含む。例えば、各エポックは、７６０回のイテレーションを含む。エポック間では、その時点の多層ニューラルネットワーク３１０，３２０の予測精度を評価するための検証（バリデーション）が行われる。予測精度の指標として、正答率（Accuracy）が用いられてもよい。正答率は、テスト用のサンプルの個数に対する予測が成功したサンプルの個数の割合である。

同一エポックの異なるイテレーションは、通常、訓練データの中の異なるサンプルを使用する。異なるエポックのイテレーションは、同一のサンプルを再度使用することがある。同一イテレーションにおいて、異なるＧＰＵは異なるサンプルを使用する。第２の実施の形態のサンプル使用方法は、オンライン学習またはミニバッチ学習である。オンライン学習では、１つのＧＰＵが１回のイテレーションで１つのサンプルを使用する。ミニバッチ学習では、１つのＧＰＵが１回のイテレーションで所定個数のサンプルを使用する。所定個数は、例えば、数十個程度である。

並列化された機械学習の各イテレーションは、FORWARDフェーズ、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズの４つのフェーズを含む。FORWARDフェーズでは、ＧＰＵ１０４−１は、多層ニューラルネットワーク３１０の先頭の層（入力層）に対して画像を入力する。すると、入力層から多層ニューラルネットワーク３１０の末尾の層（出力層）に向かって連続的に数値計算が行われ、出力層から予測結果が出力される。ＧＰＵ１０４−１は、予測結果と教師ラベルとの間の誤差を算出する。例えば、ＧＰＵ１０４−１は、複数のクラスのスコアを列挙した予測ベクトルと、正解のクラスに対応する値が１であり他のクラスに対応する値が０である正解ベクトルとを比較し、２つのベクトルの差の二乗和平方根を誤差として算出する。ミニバッチ学習では、ＧＰＵ１０４−１は、所定個数のサンプルの誤差の平均を算出する。

１つのノードに着目すると、ＧＰＵ１０４−１は、そのノードの前段の層に属する複数のノードの出力値にそれぞれエッジの重みを乗じて合算することで、前段の層の出力値の重み付き和を算出する。ＧＰＵ１０４−１は、この重み付き和を活性化関数に入力することで、そのノードの出力値を算出する。活性化関数の例として、シグモイド関数、ランプ関数、ソフトマックス関数などが挙げられる。活性化関数は、ハイパーパラメータとしてユーザから指定されてもよい。ＧＰＵ１０４−１は、そのノードの出力値を、後段の層に属する複数のノードに対して提供する。このようにして、FORWARDフェーズでは、入力層から出力層に向かって数値が伝播する。ＧＰＵ１０４−２は、ＧＰＵ１０４−１と並列に、多層ニューラルネットワーク３２０に対してFORWARDフェーズを実行する。

BACKWARDフェーズでは、ＧＰＵ１０４−１は、多層ニューラルネットワーク３１０の出力層から入力層に向かって逆順に、各エッジの重みの誤差勾配を算出する。誤差勾配は、誤差を重みの関数とみなした場合に、誤差を重みで偏微分した値に相当する。誤差勾配は、エッジの重みを微少量だけ変化させたときの誤差の変化量を表す。誤差勾配は、誤差が小さくなるように各エッジの重みを更新するために用いられる。誤差勾配を算出するアルゴリズムとして、誤差逆伝播法が用いられる。

ノード＃１とその後段のノード＃２との間のエッジに着目すると、ＧＰＵ１０４−１は、そのエッジの重みの誤差勾配を次の情報を利用して算出する。すなわち、誤差勾配が、ノード＃２とその後段のノードとの間のエッジの現在の重みおよび誤差勾配、FORWARDフェーズで算出されたノード＃２の出力値、FORWARDフェーズで算出されたノード＃１の出力値、活性化関数などから算出される。誤差勾配は、出力層に近い方から順に算出される。ＧＰＵ１０４−２は、ＧＰＵ１０４−１と並列に、多層ニューラルネットワーク３２０に対してBACKWARDフェーズを実行する。

COMMUNICATEフェーズでは、ＧＰＵ１０４−１，１０４−２は、相互に通信を行い、BACKWARDフェーズで算出された誤差勾配をエッジ毎に合算する。そして、ＧＰＵ１０４−１，１０４−２は、異なるサンプルから算出された同一エッジに対する誤差勾配の合計を、ＧＰＵの個数で割って、誤差勾配の平均を算出する。ＧＰＵ１０４−１，１０４−２によって算出される誤差勾配の平均は同一である。ＧＰＵ１０４−１，１０４−２の間の通信には、ＭＰＩ（Message Passing Interface）の集団通信（コレクティブ通信）が用いられてもよい。例えば、AllReduce通信が用いられる。

なお、COMMUNICATEフェーズは、入力層から出力層に向かう順で実行されてもよいし、出力層から入力層に向かう順で実行されてもよい。また、BACKWARDフェーズは出力層から入力層に向かって一方向に進行するため、BACKWARDフェーズが完了する前に、誤差勾配を算出済みの層に対してCOMMUNICATEフェーズが開始されてもよい。

UPDATEフェーズでは、ＧＰＵ１０４−１は、COMMUNICATEフェーズで算出された誤差勾配を用いて、多層ニューラルネットワーク３１０の各エッジの重みを更新する。このとき、ＧＰＵ１０４−１は、現在の重みから誤差勾配そのものを減じる代わりに、誤差勾配を減算値に変換して現在の重みから減算値を減じる。ＧＰＵ１０４−１は、誤差勾配から減算値への変換に、ハイパーパラメータである学習率を使用する。

学習率は、ブロック２１０，２２０，２３０，２４０，２５０に共通に設定されてもよいし、ブロック２１０，２２０，２３０，２４０，２５０それぞれに対して個別に設定されてもよい。第２の実施の形態では、後述するように、実行済みのエポック数が閾値に達したタイミングで、学習率が自動的に減少する。学習率が大きいほど、直近のサンプルの影響が重みに強く反映され、学習率が小さいほど、直近のサンプルの影響が重みに弱く反映される。ＧＰＵ１０４−１は、例えば、誤差勾配に学習率を乗じた値を減算値として使用する。この場合、更新前の重みをｗ、更新後の重みをｗ’、誤差勾配をΔｗ、学習率をηと表記すると、ｗ’＝ｗ−η×Δｗと定義される。

ＧＰＵ１０４−２は、ＧＰＵ１０４−１と並列に、多層ニューラルネットワーク３２０に対してUPDATEフェーズを実行する。なお、UPDATEフェーズは、入力層から出力層に向かう順で実行されてもよいし、出力層から入力層に向かう順で実行されてもよい。

図５は、機械学習における予測精度と誤差勾配の変化例を示すグラフである。
前述の図４で説明した機械学習が実行されると、モデルの予測精度は曲線４１のように変化することがある。曲線４１は、エポック間の検証で算出される予測精度を示している。ここでは、予測精度の指標は正答率である。また、図４で説明した機械学習が実行されると、誤差勾配は曲線４２のように変化することがある。曲線４２は、全ての重みに対して算出される誤差勾配の絶対値の平均を示している。

情報処理装置１００は、最初に学習率（ＬＲ：Learning Rate）を５．０に設定する。学習率が５．０に設定されてから初期の期間は、エポック数の増大に応じて、予測精度が大きく向上し誤差勾配が大きく低下する。しかし、学習率が固定のまま重みの更新が繰り返されると、重みが最適値からある程度離れた領域を巡回するようになり、それ以上最適値に近付かなくなることがある。このため、予測精度の向上や誤差勾配の低下には限界がある。その結果、予測精度は単調増加かつ上に凸の曲線に従って変化することがあり、誤差勾配は単調減少かつ下に凸の曲線に従って変化することがある。

そこで、情報処理装置１００は、実行済みのエポック数が所定回数に達すると、学習率を減少させる。例えば、情報処理装置１００は、エポックを３０回実行し終えたときに、学習率を初期値の１０分の１である０．５に変更する。学習率が０．５に変更されると、エポック数の増大に応じて、再び予測精度が大きく向上し誤差勾配が大きく低下する。これは、重みの１回の更新量が小さくなることで、学習率が５．０のときよりも重みが最適値に近付きやすくなるためである。ただし、学習率が５．０のときと同様、学習率が０．５のままでは予測精度の向上や誤差勾配の低下には限界がある。

そこで、情報処理装置１００は、実行済みのエポック数が所定回数に達すると、再び学習率を減少させる。例えば、情報処理装置１００は、学習率を更に１０分の１に減らして０．０５に変更する。同様に、情報処理装置１００は、実行済みのエポック数が所定回数に達すると、学習率を更に１０分の１に減らして０．００５に変更する。このように、情報処理装置１００は、エポック数に応じて段階的に学習率を引き下げる。

次に、機械学習の効率化について説明する。曲線４２は、モデルに含まれる全ての層の誤差勾配の平均が単調減少することを表している。しかし、全ての層の誤差勾配が均等に収束するとは限らず、異なる層の間で誤差勾配の収束にばらつきが生じることがある。

図６は、複数の層の間の誤差勾配のばらつきの例を示す図である。
多層ニューラルネットワーク３１０は、層３１１，３１２，３１３，３１４，３１５，３１６を含む。前述の図４の説明では、ＧＰＵ１０４−１は、各イテレーションにおいて全ての層に対してBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行している。そこで、ＧＰＵ１０４−１は、エポック＃１のイテレーション＃１において、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を算出する。また、ＧＰＵ１０４−１は、エポック＃１のイテレーション＃７６０でも、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を算出する。

ここで、図６に示す「層の誤差勾配」は、その層に含まれる複数の重みに対応する複数の誤差勾配の絶対値の平均である。エポック＃１のイテレーション＃１では、層３１１，３１２，３１３，３１４，３１５，３１６の何れの誤差勾配も大きい。これに対して、エポック＃１のイテレーション＃７６０では、層３１１，３１２，３１６の誤差勾配がまだ大きい一方、層３１３，３１４，３１５の誤差勾配が小さい。

このように、新たな学習率が設定されてからイテレーションが進むと、モデルに含まれる複数の層のうちの一部の層のみで誤差勾配が先行して収束することがある。多層畳み込みニューラルネットワークの場合、入力層に近い層（前方の層）の誤差勾配が、出力層に近い層（後方の層）よりも早く収束することがある。誤差勾配が収束した層の重みは、同じ学習率で更にイテレーションを実行しても、それ以上最適値に近付かないことがある。よって、誤差勾配が収束した層は、実質的に学習されていない層であると言える。

各イテレーションにおいて、誤差勾配が収束した層を含む全ての層に対してBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズが実行されると、予測精度の向上に寄与しない無駄な処理が発生して計算量が過大になることがある。そこで、情報処理装置１００は、一部の層の処理をスキップすることがある。スキップされる処理は、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズである。

図７は、一部の層のパラメータ更新をスキップする例を示す図である。
エポック＃１のイテレーション＃１では、層３１１，３１２，３１３，３１４，３１５，３１６の何れもスキップ対象に指定されていない。そこで、ＧＰＵ１０４−１は、層３１１，３１２，３１３，３１４，３１５，３１６に対して、FORWARDフェーズ、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。その後、ＧＰＵ１０４−１は、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を監視し、誤差勾配が収束した層を検出する。ここでは、層３１１，３１２，３１６の誤差勾配が収束しておらず、層３１３，３１４，３１５の誤差勾配が収束したと仮定する。すると、ＧＰＵ１０４−１は、層３１３，３１４，３１５をスキップ対象に指定する。

ここで、ＧＰＵ１０４−１は、BACKWARDフェーズで算出された誤差勾配に基づいて、誤差勾配が収束した層を検出する。ＧＰＵ１０４−２は、ＧＰＵ１０４−１と並列に、BACKWARDフェーズで算出された誤差勾配に基づいて、誤差勾配が収束した層を検出する。ＧＰＵ１０４−１，１０４−２は、COMMUNICATEフェーズにおいて、誤差勾配の収束の検出結果を相互に通知することで、スキップ対象の層（スキップ層）の決定を統一する。

決定されるスキップ層は、少なくとも１つのＧＰＵで誤差勾配が収束した層であってもよいし、全てのＧＰＵで誤差勾配が収束した層であってもよい。また、スキップ層は、誤差勾配が収束したＧＰＵの個数または割合が閾値以上である層であってもよい。なお、ＧＰＵ１０４−１，１０４−２は、COMMUNICATEフェーズで算出される誤差勾配の平均に基づいて、スキップ層を統一的に決定してもよい。

エポック＃１のイテレーション＃７６０では、ＧＰＵ１０４−１は、層３１１，３１２，３１３，３１４，３１５，３１６に対してFORWARDフェーズを実行する。また、ＧＰＵ１０４−１は、層３１１，３１２，３１６に対して、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。一方、ＧＰＵ１０４−１は、層３１３，３１４，３１５のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを省略する。

一部の層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズが省略されることで、１つのイテレーションの計算量および通信量が削減される。その結果、そのイテレーションの実行時間が短縮される。なお、層３１２の誤差勾配の計算には、後段の層３１３の誤差勾配が使用される。層３１３がスキップ層である場合、ＧＰＵ１０４−１は、層３１２の誤差勾配の計算に、層３１３に対して最後に算出された誤差勾配を使用する。そこで、ＧＰＵ１０４−１は、層３１３をスキップ層に指定するとき、最後に算出された層３１３の各重みの誤差勾配を保存しておく。

次に、誤差勾配の収束の判定について説明する。
図８は、誤差勾配差分の算出例を示すグラフである。
曲線４３は、多層ニューラルネットワーク３１０の第ｎ番目の層（ｎ層）の誤差勾配の変化を示す。曲線４４は、第ｎ−１番目の層（ｎ−１層）の誤差勾配の時間変化を示す。図８の横軸は、イテレーション数を表す。ただし、図８においてイテレーション数＝０は、新しい学習率が設定された直後のイテレーションに相当する。エポックが変わっても、学習率が変化しない限り、図８の横軸のイテレーション数はリセットされない。よって、図８の横軸のイテレーション数は、７６０以上になることがある。

ここで、ＧＰＵ１０４−１が、イテレーションｍの時点でｎ層をスキップ層に指定するか否か判断することを考える。ＧＰＵ１０４−１は、イテレーションｍ−１において、ｎ層の誤差勾配Δｗ_{ｎ，ｍ−１}を記録しておく。ＧＰＵ１０４−１は、イテレーションｍにおいて、ｎ層の誤差勾配Δｗ_ｎ，ｍを算出し、イテレーションｍ−１の誤差勾配からイテレーションｍの誤差勾配を引いた誤差勾配差分ΔＡ_ｎ，ｍ＝Δｗ_{ｎ，ｍ−１}−Δｗ_ｎ，ｍを算出する。

また、ＧＰＵ１０４−１は、新しい学習率が設定された直後のイテレーション０において、ｎ層の誤差勾配Δｗ_ｎ，０（初期誤差勾配）を記録しておく。ＧＰＵ１０４−１は、誤差勾配Δｗ_ｎ，０に基づいて閾値を算出する。例えば、ＧＰＵ１０４−１は、初期誤差勾配の５％、すなわち、０．０５×Δｗ_ｎ，０を閾値として算出する。初期誤差勾配に対する倍率は、ユーザから指定されるハイパーパラメータであってもよい。

ＧＰＵ１０４−１は、誤差勾配差分ΔＡ_ｎ，ｍが閾値未満であるか判断する。誤差勾配差分ΔＡ_ｎ，ｍが閾値以上である場合、ＧＰＵ１０４−１は、ｎ層をスキップ層に指定せず、イテレーションｍ＋１でもｎ層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。一方、誤差勾配差分ΔＡ_ｎ，ｍが閾値未満である場合、ＧＰＵ１０４−１は、ｎ層をスキップ層に指定し、イテレーションｍ＋１以降のｎ層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを省略する。

ＧＰＵ１０４−１は、ｎ層と同様にｎ−１層についてもスキップ層に指定するか否か判断する。曲線４３，４４が示すように、ｎ層よりもｎ−１層の方が誤差勾配の収束が早いことがある。よって、ｎ層よりもｎ−１層の方が先にスキップ層に指定されることがある。ＧＰＵ１０４−１は、学習率が変更されたときにスキップ層の指定を解除する。

次に、情報処理装置１００の機能および処理手順について説明する。
図９は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、訓練データ記憶部１２１、モデル記憶部１２２および誤差勾配記憶部１２３を有する。これらの記憶部は、例えば、ＧＰＵメモリ１０５の記憶領域を用いて実現される。ただし、ＲＡＭ１０２の記憶領域が使用されてもよい。また、情報処理装置１００は、イテレーション実行部１３０、スキップ制御部１４０および学習率制御部１５１を有する。これらの処理部は、例えば、ＧＰＵ１０４−１，１０４−２，１０４−３，１０４−４それぞれが実行するプログラムを用いて実現される。ただし、ＣＰＵ１０１で実行されるプログラムが使用されてもよい。

訓練データ記憶部１２１は、訓練データを記憶する。訓練データは、複数のサンプルを含む。各サンプルは、入力データと教師ラベルとを含む。入力データは、例えば、画像である。教師ラベルは、例えば、画像に写った物体のクラスを示すラベルである。モデル記憶部１２２は、多層ニューラルネットワークを記憶する。多層ニューラルネットワークは、例えば、図３の多層畳み込みニューラルネットワークである。誤差勾配記憶部１２３は、機械学習の途中で算出された各層の誤差勾配を記憶する。

イテレーション実行部１３０は、イテレーションを反復実行して、モデル記憶部１２２に記憶された多層ニューラルネットワークの重みを更新する。イテレーション実行部１３０は、実行済みのイテレーション数をカウントし、訓練データ記憶部１２１に記憶された訓練データの中から適切なサンプルを抽出する。また、イテレーション実行部１３０は、エポック数をカウントし、イテレーションの停止を判断する。

イテレーション実行部１３０は、FORWARD部１３１、BACKWARD部１３２、COMMUNICATE部１３３およびUPDATE部１３４を有する。FORWARD部１３１は、前述のFORWARDフェーズを実行する。FORWARDフェーズは、異なるサンプルに対して異なるＧＰＵが並列に実行できる。BACKWARD部１３２は、FORWARDフェーズに続いて前述のBACKWARDフェーズを実行する。BACKWARDフェーズは、複数のＧＰＵが並列に実行できる。ただし、スキップ制御部１４０からの指示により、一部の層の処理がスキップされることがある。

COMMUNICATE部１３３は、BACKWARDフェーズに続いて前述のCOMMUNICATEフェーズを実行する。BACKWARDフェーズでは、複数のＧＰＵがAllReduce通信などの集団通信を行う。ただし、スキップ制御部１４０からの指示により、一部の層の処理がスキップされることがある。UPDATE部１３４は、COMMUNICATEフェーズに続いて前述のUPDATEフェーズを実行する。UPDATEフェーズに使用する学習率は、学習率制御部１５１から指定される。UPDATEフェーズは、複数のＧＰＵが並列に実行できる。ただし、スキップ制御部１４０からの指示により、一部の層の処理がスキップされることがある。

スキップ制御部１４０は、実質的に学習が行われていない層をスキップ層に指定し、BACKWARD部１３２、COMMUNICATE部１３３およびUPDATE部１３４にスキップ層を通知する。
スキップ制御部１４０は、誤差勾配監視部１４１、閾値算出部１４２およびスキップ層決定部１４３を有する。誤差勾配監視部１４１は、BACKWARD部１３２から、イテレーション毎に各エッジの重みの誤差勾配を取得する。誤差勾配監視部１４１は、各層の誤差勾配を算出して誤差勾配記憶部１２３に登録する。また、誤差勾配監視部１４１は、層毎に誤差勾配差分を算出してスキップ層決定部１４３に提供する。また、誤差勾配監視部１４１は、各層の初期誤差勾配を閾値算出部１４２に提供する。

閾値算出部１４２は、新たな学習率が設定される毎かつ層毎に、誤差勾配監視部１４１から提供された初期誤差勾配に基づいて閾値を算出する。閾値は、例えば、初期誤差勾配に、ハイパーパラメータとしてユーザから指定された比率（例えば、５％）を乗じた値である。閾値算出部１４２は、各層の閾値をスキップ層決定部１４３に通知する。スキップ層決定部１４３は、イテレーション毎かつ層毎に、誤差勾配監視部１４１から提供された誤差勾配差分と閾値算出部１４２から通知された閾値とを比較する。スキップ層決定部１４３は、誤差勾配差分が閾値未満である層を特定する。

スキップ層決定部１４３は、COMMUNICATE部１３３に、誤差勾配差分が閾値未満である層の情報をＧＰＵ間で共有させる。スキップ層決定部１４３は、所定の投票アルゴリズムに基づいて、誤差勾配差分が閾値未満である層をスキップ層に指定する。スキップ層は、全てのＧＰＵで誤差勾配差分が閾値未満であった層でもよいし、少なくも１つのＧＰＵで誤差勾配差分が閾値未満であった層でもよいし、過半数のＧＰＵで誤差勾配が閾値未満であった層でもよい。スキップ層決定部１４３は、スキップ層に指定した層を、BACKWARD部１３２、COMMUNICATE部１３３およびUPDATE部１３４に通知する。

学習率制御部１５１は、ハイパーパラメータとしてユーザから指定された学習率の初期値を、UPDATE部１３４に通知する。また、学習率制御部１５１は、実行済みのエポック数をカウントし、エポック数が所定数に達したときに学習率を変更する。例えば、学習率制御部１５１は、学習率変更の契機毎に、学習率を現在の１０分の１に下げる。学習率制御部１５１は、変更後の学習率をUPDATE部１３４に通知する。

図１０は、誤差勾配テーブルの例を示す図である。
誤差勾配テーブル１２４は、誤差勾配記憶部１２３に記憶される。誤差勾配テーブル１２４には、５０個の層それぞれについて、層番号、初期誤差勾配および前回誤差勾配が登録される。層番号は、層を識別する識別番号である。初期誤差勾配は、新たな学習率（学習率の初期値または変更後の学習率）が設定された直後のイテレーションで算出された誤差勾配である。前回誤差勾配は、１つ前のイテレーションで算出された誤差勾配である。

イテレーションｍの誤差勾配が算出される前は、誤差勾配テーブル１２４には、前回誤差勾配としてイテレーションｍ−１の誤差勾配が登録されている。イテレーションｍの誤差勾配が算出されると、誤差勾配テーブル１２４には、前回誤差勾配としてイテレーションｍの誤差勾配が上書きされる。このとき、イテレーションｍ−１の誤差勾配とイテレーションｍの誤差勾配の差が、誤差勾配差分として算出される。なお、誤差勾配テーブル１２４に登録される各層の誤差勾配は、BACKWARDフェーズの結果から、その層に含まれる複数の重みに対応する複数の誤差勾配の絶対値の平均として算出される。

図１１は、機械学習の手順例を示すフローチャートである。
この機械学習の手順は、例えば、複数のＧＰＵにおいて並列に実行される。
（Ｓ１０）学習率制御部１５１は、学習率の初期値を設定する。

（Ｓ１１）イテレーション実行部１３０は、訓練データからサンプルを抽出する。FORWARD部１３１は、抽出されたサンプルを用いてFORWARDフェーズを実行する。FORWARDフェーズでは、FORWARD部１３１は、サンプルに含まれる入力データをモデルに入力し、サンプルに含まれる教師ラベルとモデルの出力との間の誤差を算出する。

（Ｓ１２）BACKWARD部１３２は、出力に近い方から優先的に層を１つ選択する。
（Ｓ１３）BACKWARD部１３２は、ステップＳ１２で選択した層がスキップ層に指定されているか判断する。選択した層がスキップ層である場合はステップＳ１５に進み、選択した層がスキップ層でない場合はステップＳ１４に進む。

（Ｓ１４）BACKWARD部１３２は、選択した層に対してBACKWARDフェーズの処理を実行する。ここでは、BACKWARD部１３２は、誤差逆伝播法によって、選択した層に属するエッジの重みの誤差勾配を算出する。後段の層がスキップ層である場合、後段の層に属するエッジの重みの誤差勾配が今回のイテレーションで算出されていない。その場合、BACKWARD部１３２は、後段の層に対して最後に算出された誤差勾配を読み出して使用する。

（Ｓ１５）BACKWARD部１３２は、ステップＳ１２において全ての層を選択したか、すなわち、モデルの中の先頭の層に到達したか判断する。全ての層を選択した場合はステップＳ１６に進み、未選択の層がある場合はステップＳ１２に戻る。

（Ｓ１６）誤差勾配監視部１４１は、BACKWARD部１３２で算出された各エッジの重みの誤差勾配を取得する。誤差勾配監視部１４１は、取得した誤差勾配を層毎に分類し、各層の誤差勾配の絶対値の平均を、その層の誤差勾配として算出する。

（Ｓ１７）誤差勾配監視部１４１は、今回のイテレーションが新たな学習率の設定直後のイテレーション（イテレーション０）であるか判断する。イテレーション０の場合はステップＳ１８に進み、イテレーション０でない場合はステップＳ２０に進む。

（Ｓ１８）誤差勾配監視部１４１は、ステップＳ１６で算出した各層の誤差勾配を、初期誤差勾配および前回誤差勾配として誤差勾配テーブル１２４に登録する。
（Ｓ１９）閾値算出部１４２は、初期誤差勾配から閾値を算出する。例えば、閾値算出部１４２は、初期誤差勾配の５％を閾値と規定する。そして、ステップＳ２２に進む。

（Ｓ２０）誤差勾配監視部１４１は、層毎に、誤差勾配テーブル１２４に登録された前回誤差勾配から、ステップＳ１６で算出した誤差勾配を引いて誤差勾配差分を算出する。また、誤差勾配監視部１４１は、ステップＳ１６で算出した誤差勾配を、前回誤差勾配として誤差勾配テーブル１２４に上書きする。

（Ｓ２１）スキップ層決定部１４３は、複数の層の中から、ステップＳ２０で算出された誤差勾配差分が、閾値算出部１４２で算出された閾値未満である層を特定する。
図１２は、機械学習の手順例を示すフローチャート（続き）である。

（Ｓ２２）COMMUNICATE部１３３は、層を１つ選択する。
（Ｓ２３）COMMUNICATE部１３３は、ステップＳ２２で選択した層がスキップ層に指定されているか判断する。選択した層がスキップ層である場合はステップＳ２５に進み、選択した層がスキップ層でない場合はステップＳ２４に進む。

（Ｓ２４）COMMUNICATE部１３３は、選択した層に対してCOMMUNICATEフェーズの処理を実行する。ここでは、COMMUNICATE部１３３は、ＧＰＵ間のAllReduce通信により、複数のＧＰＵで算出された誤差勾配をエッジの重み毎に合計する。COMMUNICATE部１３３は、誤差勾配の合計をＧＰＵの個数で割ることで、誤差勾配の平均を算出する。これにより、複数のＧＰＵの間で誤差勾配が集計される。また、COMMUNICATE部１３３は、ＧＰＵ間通信によって、誤差勾配差分が閾値未満の層の情報を収集する。

（Ｓ２５）COMMUNICATE部１３３は、ステップＳ２２において全ての層を選択したか判断する。全ての層を選択した場合はステップＳ２６に進み、未選択の層がある場合はステップＳ２２に戻る。なお、COMMUNICATE部１３３は、複数の層を順方向（入力から出力の方向）に選択してもよいし、逆方向（出力から入力の方向）に選択してもよい。また、COMMUNICATE部１３３は、複数の層のCOMMUNICATEフェーズを並列に実行してもよい。

（Ｓ２６）UPDATE部１３４は、層を１つ選択する。
（Ｓ２７）UPDATE部１３４は、ステップＳ２６で選択した層がスキップ層に指定されているか判断する。選択した層がスキップ層である場合はステップＳ２９に進み、選択した層がスキップ層でない場合はステップＳ２８に進む。

（Ｓ２８）UPDATE部１３４は、選択した層に対してUPDATEフェーズの処理を実行する。ここでは、UPDATE部１３４は、選択した層に属するエッジの重みを、COMMUNICATEフェーズで集計された誤差勾配と現在の学習率とに基づいて更新する。例えば、UPDATE部１３４は、誤差勾配に学習率を乗じて減算値を算出し、現在の重みから減算値を引く。

（Ｓ２９）UPDATE部１３４は、ステップＳ２６において全ての層を選択したか判断する。全ての層を選択した場合はステップＳ３０に進み、未選択の層がある場合はステップＳ２６に戻る。なお、UPDATE部１３４は、複数の層を順方向（入力から出力の方向）に選択してもよいし、逆方向（出力から入力の方向）に選択してもよい。

（Ｓ３０）スキップ層決定部１４３は、ステップＳ２４で収集された情報に基づいて、ＧＰＵ間の合意としてスキップ層を決定する。誤差勾配差分が閾値未満である層の発生状況がＧＰＵ間で一致している場合、スキップ層決定部１４３は、誤差勾配差分が閾値未満である層をスキップ層に指定する。誤差勾配差分が閾値未満である層の発生状況がＧＰＵ間で相違する場合、スキップ層決定部１４３は、所定の投票アルゴリズムに従って、各層をスキップ層に指定するか否か決定する。

（Ｓ３１）イテレーション実行部１３０は、今回のイテレーションで全てのエポックが終了したか判断する。例えば、イテレーション実行部１３０は、７６０イテレーション×６０エポックが終了したか判断する。全てのエポックが終了した場合は機械学習が停止し、それ以外の場合はステップＳ３２に進む。

（Ｓ３２）学習率制御部１５１は、区切りとなる所定のエポック数に到達したか判断する。所定のエポック数は、複数個あってもよい。所定のエポック数に到達した場合はステップＳ３３に進み、それ以外の場合はステップＳ１１に戻る。

（Ｓ３３）学習率制御部１５１は、学習率を１段階下げる。例えば、学習率制御部１５１は、学習率を現在の１０分の１に変更する。学習率が変更されると、スキップ層決定部１４３は、スキップ層の指定を解除する。これにより、次のイテレーションでは、全ての層に対してBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズが実行される。そして、ステップＳ１１に戻る。

第２の実施の形態の情報処理装置１００によれば、各層について、前回のイテレーションと今回のイテレーションとの間の誤差勾配差分が算出される。また、各層について、学習率が設定または変更された直後の初期誤差勾配から閾値が算出される。そして、誤差勾配差分が閾値未満の層がスキップ層に指定され、学習率が変更されるまで、スキップ層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズの処理が省略される。

これにより、現在の学習率のもとで誤差勾配が収束して実質的に学習が行われなくなった層について、誤差勾配の計算、ＧＰＵ間通信および重みの更新が停止する。よって、機械学習における無駄な処理が削減され、計算量が削減される。その結果、機械学習の実行時間が短縮される。また、学習率が変更されて誤差勾配が再び減少することが期待される場合には、各層の誤差勾配の計算、ＧＰＵ間通信および重みの更新が再開される。また、学習率毎かつ層毎に、初期誤差勾配に基づいて閾値を決定することで、同一の学習率のもとでの誤差勾配のレベルに応じた適切な収束判定が可能となる。

１０情報処理装置
１１記憶部
１２処理部
１３モデル
１３ａ，１３ｂ，１３ｃ層
１４ａ，１４ｂ，１４ｃパラメータ
１５訓練データ
１６学習処理
１６ａ，１６ｂ，１６ｃイテレーション
１７差分
１７ａ，１７ｂ誤差勾配
１８閾値

Claims

コンピュータに、
それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いて前記モデルの出力の誤差を算出し、前記複数の層それぞれについて、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、
前記複数の層のうちの第１の層に対して、前記学習処理の第１のイテレーションで算出された第１の誤差勾配と前記第１のイテレーションより後の第２のイテレーションで算出された第２の誤差勾配との間の差分を算出し、
前記差分が閾値未満である場合、前記第２のイテレーションより後の第３のイテレーションにおいて、前記第１の層の前記誤差勾配の算出および前記パラメータの値の更新を抑止する、
処理を実行させる学習プログラム。
前記コンピュータに更に、前記学習処理の開始時のイテレーションで算出された前記誤差勾配を示す初期誤差勾配に基づいて、前記閾値を決定する処理を実行させる、
請求項１記載の学習プログラム。
前記コンピュータに更に、前記パラメータの値の更新に用いる学習率を設定し、前記学習処理の実行済みのイテレーション数に応じて前記学習率を変更する、処理を実行させ、
前記閾値の決定では、前記学習率の変更時のイテレーションで算出された前記誤差勾配を示す他の初期誤差勾配に基づいて、前記閾値を変更する、
請求項２記載の学習プログラム。
前記学習処理の各イテレーションでは、複数の処理ノードを用いて異なる訓練データから異なる誤差を算出し、前記複数の処理ノードを用いて前記異なる誤差から異なる誤差勾配を算出し、前記複数の処理ノード間の通信によって前記異なる誤差勾配を合成し、前記合成した誤差勾配に基づいて前記パラメータの値を更新し、
前記抑止では、前記第１の層の前記異なる誤差勾配の算出、前記複数の処理ノード間の通信および前記パラメータの値の更新を抑止する、
請求項１記載の学習プログラム。
前記モデルは、多層ニューラルネットワークである、
請求項１記載の学習プログラム。
前記第２のイテレーションは前記第１のイテレーションの直後であり、前記第３のイテレーションは前記第２のイテレーションの直後である、
請求項１記載の学習プログラム。
前記差分の算出では、前記複数の層それぞれに対して前記差分を算出し、
前記抑止では、前記複数の層のうち前記差分が前記閾値未満である層を特定し、前記特定した層の前記誤差勾配の算出および前記パラメータの値の更新を抑止する、
請求項１記載の学習プログラム。
コンピュータが、
それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いて前記モデルの出力の誤差を算出し、前記複数の層それぞれについて、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、
前記複数の層のうちの第１の層に対して、前記学習処理の第１のイテレーションで算出された第１の誤差勾配と前記第１のイテレーションより後の第２のイテレーションで算出された第２の誤差勾配との間の差分を算出し、
前記差分が閾値未満である場合、前記第２のイテレーションより後の第３のイテレーションにおいて、前記第１の層の前記誤差勾配の算出および前記パラメータの値の更新を抑止する、
学習方法。
それぞれパラメータを含む複数の層を含むモデルと訓練データとを記憶する記憶部と、
前記訓練データを用いて前記モデルの出力の誤差を算出し、前記複数の層それぞれについて、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、前記複数の層のうちの第１の層に対して、前記学習処理の第１のイテレーションで算出された第１の誤差勾配と前記第１のイテレーションより後の第２のイテレーションで算出された第２の誤差勾配との間の差分を算出し、前記差分が閾値未満である場合、前記第２のイテレーションより後の第３のイテレーションにおいて、前記第１の層の前記誤差勾配の算出および前記パラメータの値の更新を抑止する処理部と、
を有する情報処理装置。