JP2022007168A

JP2022007168A - 学習プログラム、学習方法および情報処理装置

Info

Publication number: JP2022007168A
Application number: JP2020109935A
Authority: JP
Inventors: 雄高甲斐; Taketaka Kai; 明彦笠置; Akihiko Kasaoki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-25
Filing date: 2020-06-25
Publication date: 2022-01-13
Also published as: US20210406683A1; CN113850364A; EP3929823A1

Abstract

【課題】モデルに含まれる一部の層のパラメータ更新を機械学習中に停止する場合の精度低下を抑制する。
【解決手段】それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いてモデルの出力の誤差を算出し、誤差に基づいて複数の層それぞれのパラメータの値を更新する、ことを反復的に実行する学習処理を開始する。学習処理の第１のイテレーションの実行結果に基づいて、複数の層のうちパラメータの値の更新を抑止する候補を示す２以上の候補層を選択する。第１のイテレーションまでのイテレーションの実行回数に基づいて、実行回数が多いほど大きい割合値を算出し、２以上の候補層のうち割合値に応じた個数の層に対して、第１のイテレーションより後の第２のイテレーションにおいてパラメータの値の更新を抑止することを決定する。
【選択図】図９

Description

本発明は学習プログラム、学習方法および情報処理装置に関する。

情報処理装置を利用したデータ分析として、機械学習が行われることがある。機械学習では、既知の事例を示す訓練データが収集される。情報処理装置は、訓練データを分析して、要因（説明変数や独立変数と言うことがある）と結果（目的変数や従属変数と言うことがある）との間の関係を一般化したモデルを生成する。情報処理装置は、生成されたモデルを用いて、未知の事例についての結果を予測する。例えば、画像に写った物体の種類を判定するための画像認識モデルが生成される。

情報処理装置は、複数の層を含むモデルを生成することがある。例えば、機械学習は、多層ニューラルネットワークを生成する深層学習（ディープラーニング）であることがある。このとき、情報処理装置は、イテレーションを繰り返すことで、各層に含まれるパラメータの最適値を探索することがある。各イテレーションにおいて、情報処理装置は、訓練データを用いてモデルの出力の誤差を評価し、誤差に基づいてパラメータの値を更新することがある。例えば、パラメータ最適化に誤差逆伝播法が用いられる。

なお、訓練データに含まれる複数の説明変数のうち、一部の説明変数を自動的に機械学習から除外する特徴フィルタリング方法が提案されている。提案の特徴フィルタリング方法は、１つ前のイテレーションで算出された勾配に基づいて、説明変数の値に対するフィルタリング閾値を決定する。また、多層ニューラルネットワークを生成する機械学習において、一部の層を自動的に削除する学習装置が提案されている。提案の学習装置は、多層ニューラルネットワークの出力に対する寄与度を複数の層それぞれについて算出し、寄与度の小さい層を削除して機械学習を再度実行する。

国際公開第２０１７／１５７１８３号特開２０１９－１８５２７５号公報

複数の層を含むモデルを生成する機械学習では、パラメータの改善が全ての層で均等に進行するとは限らない。イテレーション数の増加に伴って、一部の層のパラメータの改善が先に収束することがある。例えば、多層ニューラルネットワークでは、入力側の層のパラメータの改善が、出力側の層のパラメータの改善よりも早く収束することがある。

そこで、直近のイテレーションの実行結果に基づいて、以降のイテレーションにおいて一部の層のパラメータ更新を抑止するという制御方法も考えられる。しかし、パラメータの改善量は、イテレーション数の増加に対して常に単調に減少するとは限らず、短期的には改善量が上下に揺れることがある。そのため、直近のイテレーションの実行結果が収束条件を満たしている全ての層について、パラメータ更新を即時に抑止してしまうと、生成されるモデルの精度が低下するおそれがあるという問題がある。

１つの側面では、本発明は、モデルに含まれる一部の層のパラメータ更新を機械学習中に停止する場合の精度低下を抑制する学習プログラム、学習方法および情報処理装置を提供することを目的とする。

１つの態様では、以下の処理をコンピュータに実行させる学習プログラムが提供される。それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いてモデルの出力の誤差を算出し、誤差に基づいて複数の層それぞれのパラメータの値を更新する、ことを反復的に実行する学習処理を開始する。学習処理の第１のイテレーションの実行結果に基づいて、複数の層のうちパラメータの値の更新を抑止する候補を示す２以上の候補層を選択する。第１のイテレーションまでのイテレーションの実行回数に基づいて、実行回数が多いほど大きい割合値を算出し、２以上の候補層のうち割合値に応じた個数の層に対して、第１のイテレーションより後の第２のイテレーションにおいてパラメータの値の更新を抑止することを決定する。

また、１つの態様では、コンピュータが実行する学習方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

１つの側面では、モデルに含まれる一部の層のパラメータ更新を機械学習中に停止する場合の精度低下が抑制される。

第１の実施の形態の情報処理装置を説明するための図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。多層ニューラルネットワークの構造例を示す図である。機械学習の学習フェーズの例を示す図である。機械学習における予測精度と誤差勾配の変化例を示すグラフである。複数の層の間の誤差勾配のばらつきの例を示す図である。一部の層のパラメータ更新をスキップする第１の例を示す図である。誤差勾配差分の算出例を示すグラフである。スキップ層の採用割合の関数例を示すグラフである。一部の層のパラメータ更新をスキップする第２の例を示す図である。情報処理装置の機能例を示すブロック図である。誤差勾配テーブルの例を示す図である。機械学習の手順例を示すフローチャートである。機械学習の手順例を示すフローチャート（続き１）である。機械学習の手順例を示すフローチャート（続き２）である。第１のスキップ層抽出の手順例を示すフローチャートである。第２のスキップ層抽出の手順例を示すフローチャートである。第３のスキップ層抽出の手順例を示すフローチャートである。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明するための図である。
情報処理装置１０は、機械学習によって、訓練データから複数の層を含むモデルを生成する。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０は、コンピュータや機械学習装置などと呼ばれてもよい。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの特定用途の電子回路を含んでもよい。プロセッサは、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。複数のプロセッサの集合が「マルチプロセッサ」または単に「プロセッサ」と呼ばれてもよい。

記憶部１１は、モデル１３および訓練データ１５を記憶する。
モデル１３は、説明変数の値から目的変数の値を予測する予測モデルである。モデル１３は、画像から物体のクラスを予測する画像認識モデルであってもよい。モデル１３は、パラメータをそれぞれ含む複数の層を含む。それら複数の層は、直列に接続されていてもよい。モデル１３は、多層ニューラルネットワークであってもよく、畳み込みニューラルネットワークであってもよい。各層のパラメータの値は、機械学習を通じて決定される。パラメータは、多層ニューラルネットワークのエッジの重みであってもよい。

例えば、モデル１３は、層１３ａ，１３ｂ，１３ｃを含む。層１３ｂは層１３ａの次の層であり、層１３ｃは層１３ｂの次の層である。層１３ａはパラメータ１４ａを含む。層１３ｂはパラメータ１４ｂを含む。層１３ｃはパラメータ１４ｃを含む。訓練データ１５は、モデル１３のパラメータ最適化に用いられるデータセットである。訓練データ１５は、教師ラベルがそれぞれ付与された複数のサンプルを含む。訓練データ１５は、物体のクラスを示すラベルがそれぞれ付与された複数の画像を含んでもよい。

処理部１２は、訓練データ１５を用いてモデル１３のパラメータ１４ａ，１４ｂ，１４ｃを最適化する学習処理１６を実行する。学習処理１６では、処理部１２は、以下に説明するイテレーションを反復的に実行する。処理部１２は、モデル１３に対して誤差逆伝播法を実行してもよい。各イテレーションにおいて、処理部１２は、訓練データ１５に含まれる入力データをモデル１３に入力し、モデル１３の出力と訓練データ１５に含まれる教師ラベルとを比較して、モデル１３の出力の誤差を算出する。

そして、処理部１２は、算出した誤差に基づいて、モデル１３に含まれる複数の層それぞれのパラメータの値を更新する。例えば、処理部１２は、モデル１３に含まれる複数の層それぞれについて、パラメータに対する誤差の勾配を示す誤差勾配を算出する。誤差勾配は、パラメータの値を微少量だけ変化させたときの誤差の変化量を表す。処理部１２は、誤差勾配に基づいてパラメータの値を更新する。処理部１２は、誤差勾配に学習率を乗じた分だけパラメータの値を変化させてもよい。学習率は、機械学習の挙動を制御するハイパーパラメータであり、ユーザから与えられてもよい。

ここで、学習処理１６の途中において、処理部１２は、モデル１３に含まれる複数の層のうちの一部の層について、パラメータの値の更新を抑止することがある。ある層の処理の抑止は、誤差勾配の算出の抑止を含んでもよい。また、複数の処理部が分散処理を行う場合、ある層の処理の抑止は、複数の処理部の間の通信の抑止を含んでもよい。ある層の処理の抑止は、当該層のスキップと呼ばれてもよい。以下の説明では、処理部１２は、イテレーション１６ａを実行済みであり、その後のイテレーション１６ｂを未実行であるとする。イテレーション１６ｂは、イテレーション１６ａの直後であってもよい。

処理部１２は、イテレーション１６ａの実行結果に基づいて、複数の層の中から、パラメータの値の更新を抑止する候補を示す２以上の候補層を選択する。例えば、処理部１２は、複数の層の中から、イテレーション１６ａで算出された誤差勾配とその前のイテレーションで算出された誤差勾配との差分が、閾値未満である層を選択する。誤差勾配の差分が閾値未満である層は、パラメータの学習が実質的に進行していない層である。一例として、層１３ａ，１３ｂ，１３ｃのうち層１３ｂ，１３ｃが、候補層として選択される。

次に、処理部１２は、イテレーション１６ａまでのイテレーションの実行回数に基づいて割合値１７を算出する。イテレーションの実行回数が多いほど割合値１７が大きい。例えば、処理部１２は、学習処理１６の開始からのイテレーションの実行回数をカウントし、その実行回数に基づいて割合値１７を算出する。割合値１７は、０以上１以下の実数でもよい。イテレーションの実行回数と割合値１７との間の関係は、実行回数の増加に対して割合値１７が単調に増加する関数によって規定されてもよい。例えば、実行回数と割合値１７との間の関係は、シグモイド曲線によって規定されてもよい。

そして、処理部１２は、上記で選択した候補層の中から、割合値１７に応じた個数の層を抽出する。割合値１７に応じた個数は、候補層の個数に割合値１７を乗じた数であってもよい。層１３ｂ，１３ｃが候補層であり、割合値１７が０．５（５０％）である場合、例えば、処理部１２は、層１３ｂ，１３ｃの何れか一方を抽出する。図１では、処理部１２は、層１３ｂ，１３ｃのうち層１３ｂを抽出している。

処理部１２は、イテレーション１６ａより後のイテレーション１６ｂにおいて、抽出した層のパラメータ更新を抑止する。処理部１２は、候補層のうち上記で抽出しなかった層のパラメータ更新を抑止しなくてよい。よって、割合値１７は、候補層のうち実際にパラメータ更新を抑止する層の割合を表す。層１３ｂが抽出された場合、イテレーション１６ｂではパラメータ１４ｂの値が変化しない。誤差逆伝播法の場合、処理部１２は、イテレーション１６ａで算出された層１３ｂの誤差勾配を層１３ａに伝播させてもよい。これにより、イテレーション１６ｂにおいて層１３ａのパラメータ更新が可能となる。

候補層のうち実際にパラメータ更新を抑止する層は、様々な判定基準に従って決定されてもよい。例えば、処理部１２は、直近の一定期間における誤差勾配の平均が小さい層を優先的に抽出してもよい。また、例えば、処理部１２は、直近の一定期間における誤差勾配差分の平均が小さい層を優先的に抽出してもよい。また、例えば、処理部１２は、モデル１３の入力に近い層を優先的に抽出してもよい。また、例えば、処理部１２は、モデル１３に含まれる一連の層が２以上のブロックに分割されている場合、パラメータ更新を抑止する層が特定のブロックに集中しないように分散させてもよい。また、例えば、処理部１２は、パラメータ更新を抑止する層の間隔を所定層数以上空けるようにしてもよい。

第１の実施の形態の情報処理装置１０によれば、イテレーション１６ａの実行結果に基づいて、パラメータの値の更新を抑止する候補を示す２以上の候補層が選択される。イテレーション１６ａまでのイテレーションの実行回数に基づいて、実行回数が多いほど大きい割合値１７が算出される。そして、候補層のうち割合値１７に応じた個数の層に対して、イテレーション１６ｂにおいてパラメータの値の更新を抑止することが決定される。

これにより、パラメータ最適化が他の層よりも早く収束してパラメータの値が改善しなくなった層については、無駄なパラメータ更新が抑止される。よって、機械学習における無駄な処理が削減され、計算量が削減される。また、その結果として、モデル１３を生成する機械学習の実行時間が短縮される。

また、直近の実行結果からパラメータ最適化が収束したように見える候補層のうち、割合値１７に応じた個数の層のみが、実際にパラメータ更新を抑止する。よって、その後にパラメータの値が再び改善する可能性が考慮され、全ての候補層が即時にパラメータ更新を抑止する場合と比べて、モデル１３の精度が向上する。また、割合値１７が学習処理１６の進行に合わせて上昇するため、パラメータ最適化の収束した層が徐々に増加するという長期的トレンドを表現することができる。その結果、学習処理１６の計算量の削減とモデル１３の精度の向上のバランスを図ることができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。

第２の実施の形態の情報処理装置１００は、多層ニューラルネットワークを深層学習によって生成する。多層ニューラルネットワークは、例えば、画像認識に使用される。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００は、コンピュータや機械学習装置などと呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４－１～１０４－４、ＧＰＵメモリ１０５、画像インタフェース１０６、入力インタフェース１０７、媒体リーダ１０８および通信インタフェース１０９を有する。ＣＰＵ１０１またはＧＰＵ１０４－１～１０４－４は、前述の処理部１２に対応する。ＲＡＭ１０２、ＨＤＤ１０３またはＧＰＵメモリ１０５は、前述の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサであって、情報処理装置１００を制御するメインプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。また、ＣＰＵ１０１は、ＧＰＵ１０４－１～１０４－４にプログラムを実行させることがある。ＣＰＵ１０１は、プログラムやデータをＲＡＭ１０２からＧＰＵメモリ１０５に転送し、転送したプログラムをＧＰＵ１０４－１～１０４－４に実行させ、演算結果をＧＰＵメモリ１０５からＲＡＭ１０２に読み出す。ＣＰＵ１０１は、通信インタフェース１０９を介して他の情報処理装置のＧＰＵにプログラムを実行させることもある。

ＲＡＭ１０２は、プログラムやデータを記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類のメモリを備えてもよい。
ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）など他の種類のストレージを備えてもよい。ＣＰＵ１０１が実行するプログラムには、機械学習を制御するためのプラットフォームプログラムやライブラリプログラムが含まれる。ＧＰＵ１０４－１～１０４－４が実行するプログラムには、機械学習用のライブラリプログラムやユーザのアプリケーションプログラムが含まれる。

ＧＰＵ１０４－１～１０４－４は、プログラムの命令を実行するプロセッサであって、特定の種類の演算を高速に実行するためのハードウェアアクセラレータである。ＧＰＵ１０４－１～１０４－４は、ＣＰＵ１０１からの指示に応じて、異なるデータに対してプログラムを並列に実行する。ＧＰＵ１０４－１～１０４－４はそれぞれ、プログラムをＧＰＵメモリ１０５から読み出し、自らが担当するデータをＧＰＵメモリ１０５から読み出し、プログラムを実行し、演算結果をＧＰＵメモリ１０５に格納する。

ＧＰＵメモリ１０５は、プログラムやデータを記憶する揮発性半導体メモリである。ＧＰＵメモリ１０５は、ＧＰＵ１０４－１～１０４－４によって使用される。
画像インタフェース１０６は、ＣＰＵ１０１からの命令に従って、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１として、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。情報処理装置１００に、プリンタなど表示装置１１１以外の出力デバイスが接続されてもよい。

入力インタフェース１０７は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。情報処理装置１００に複数種類の入力デバイスが接続されてもよい。

媒体リーダ１０８は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３として、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ１０８は、例えば、記録媒体１１３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１などのプロセッサによって実行される。記録媒体１１３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１１３やＨＤＤ１０３は、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

通信インタフェース１０９は、ネットワーク１１４に接続され、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０９は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

なお、情報処理装置１００のような情報処理装置を複数台用意することで、それら複数の情報処理装置をノードとして含むマルチノードシステムが形成されてもよい。その場合、異なるノードに含まれるＧＰＵが、異なるデータに対してプログラムを並列に実行してもよい。例えば、それぞれ４個のＧＰＵを含む２つのノードがネットワーク１１４に接続され、８個のＧＰＵが並列にプログラムを実行してもよい。何れか１つのノードのＣＰＵが、複数のノードのＧＰＵを制御してもよい。

次に、モデルの構造および機械学習について説明する。
図３は、多層ニューラルネットワークの構造例を示す図である。
第２の実施の形態のモデルは、画像認識用の多層畳み込みニューラルネットワークである。図３のモデル例は、ResNet-50と呼ばれることがある。ただし、後述するスキップ制御は様々な多層ニューラルネットワークに適用可能であり、ResNet-50に限定されない。

図３のモデルは、直列に接続されたブロック２１０，２２０，２３０，２４０，２５０を含む。ブロック２１０は、入力画像を受け付ける先頭ブロックである。ブロック２２０はブロック２１０の次であり、ブロック２３０はブロック２２０の次であり、ブロック２４０はブロック２３０の次であり、ブロック２５０はブロック２４０の次である。

ブロック２１０は、畳み込み層２１１を含む。畳み込み層２１１は、カーネルと呼ばれるフィルタをシフトしながら積和演算を繰り返す畳み込み演算（Convolution）を行う。カーネルのサイズは、例えば、７×７である。畳み込み層２１１の出力は、特徴マップと呼ばれることがある。畳み込み層２１１は、カーネルの１回のシフト量を示すストライドが２に設定されている。このため、畳み込み層２１１が出力する特徴マップの高さおよび幅は、それぞれ入力の高さおよび幅の２分の１になる。

ブロック２２０は、直列に接続されたプーリング層２２１およびボトルネックブロック２２２，２２３，２２４を含む。プーリング層２２１は、隣接する所定個の要素を１つの要素に合成するプーリング演算を行う。プーリング層２２１は、例えば、３×３の正方領域から１つの要素を算出する。プーリング層２２１のプーリング演算は、例えば、３×３個の要素の中から最大値を選択する最大プーリングである。プーリング層２２１は、ストライドが２に設定されている。このため、プーリング層２２１の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１になる。

ボトルネックブロック２２２，２２３，２２４はそれぞれ、入力に対して複数回の畳み込み演算を連続的に行い、畳み込み演算の結果と元の入力とを合成して出力する。ボトルネックブロック２２２，２２３，２２４はそれぞれ、直列に接続された畳み込み層２７１，２７２，２７３を含む。畳み込み層２７１，２７２，２７３はそれぞれ、畳み込み演算を行う。畳み込み層２７２，２７３のストライドは１である。よって、畳み込み層２７２，２７３では、出力の高さおよび幅は、それぞれ入力の高さおよび幅と同一である。

一方、畳み込み層２７１のストライドは、１であることもあるし２であることもある。ストライドが１の場合、畳み込み層２７１の出力の高さおよび幅は、それぞれ入力の高さおよび幅と同一である。ストライドが２の場合、畳み込み層２７１の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。なお、ボトルネックブロック２２２，２２３，２２４では、各畳み込み層のストライドが１に設定され、入力の高さおよび幅は変化しない。最後に、畳み込み層２７３の出力に元の入力が加算される。

ブロック２３０は、直列に接続されたボトルネックブロック２３１，２３２，２３３，２３４を含む。ボトルネックブロック２３１，２３２，２３３，２３４の構造は、ブロック２２０と同様である。ただし、ボトルネックブロック２３１の畳み込み層２７１のストライドが２に設定され、他の畳み込み層のストライドが１に設定される。よって、ブロック２３０の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。

ブロック２４０は、直列に接続されたボトルネックブロック２４１，２４２，２４３，２４４，２４５，２４６を含む。ボトルネックブロック２４１，２４２，２４３，２４４，２４５，２４６の構造は、ブロック２２０，２３０と同様である。ただし、ボトルネックブロック２４１の畳み込み層２７１のストライドが２に設定され、他の畳み込み層のストライドが１に設定される。よって、ブロック２４０の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。

ブロック２５０は、直列に接続されたボトルネックブロック２５１，２５２，２５３を含む。ボトルネックブロック２５１，２５２，２５３の構造は、ブロック２２０，２３０，２４０と同様である。ただし、ボトルネックブロック２５１の畳み込み層２７１のストライドが２に設定され、他の畳み込み層のストライドが１に設定される。よって、ブロック２５０の出力の高さおよび幅は、それぞれ入力の高さおよび幅の２分の１である。

このように、ブロック２１０，２２０，２３０，２４０，２５０の集合は、１６個のボトルネックブロックと２個のその他の層を含み、全体として５０個の主要層を含む。ブロック２５０の後段に、直列にプーリング層２６１および全結合層２６２が接続される。

プーリング層２６１は、プーリング演算を行う。プーリング層２６１のプーリング演算は、例えば、隣接する所定個の要素の平均値を算出する平均プーリングである。全結合層２６２は、要素間の隣接関係を保存せずに、プーリング層２６１が出力する要素全体から数値を算出する全結合演算を行う。全結合層２６２は、認識可能な物体のクラス（例えば、１０００個のクラス）それぞれに対するスコアを算出する。あるクラスのスコアは、入力画像に写った物体が当該クラスに属する確率を表す。

図４は、機械学習の学習フェーズの例を示す図である。
ここでは、説明を簡単にするため、ＧＰＵ１０４－１，１０４－２の２個のＧＰＵを用いて機械学習を並列化していると仮定する。情報処理装置１００は、更に多数のＧＰＵを用いて機械学習を並列化することが可能である。

ＧＰＵ１０４－１は、多層ニューラルネットワーク３１０を保持する。ＧＰＵ１０４－２は、多層ニューラルネットワーク３１０と同一の多層ニューラルネットワーク３２０を保持する。多層ニューラルネットワーク３１０，３２０は、例えば、図３に示した多層畳み込みニューラルネットワークである。

多層ニューラルネットワーク３１０，３２０はそれぞれ、複数の層を含む。各層には、複数のノードが並べられている。ノード数は層によって異なってもよい。ある層の前方に他の層がある場合、当該層のノードは１つ前の層のノードとの間にエッジをもつ。ある層の後方に他の層がある場合、当該層のノードは１つ後の層のノードとの間にエッジをもつ。エッジには重みが付与される。重みは、機械学習を通じて値が決定されるパラメータである。なお、ある層のノードが１つ前の層のノードとの間にもつエッジの重みを、当該層に含まれるパラメータと解釈してもよい。または、ある層のノードが１つ後の層のノードとの間にもつエッジの重みを、当該層に含まれるパラメータと解釈してもよい。

画像認識モデルを生成する機械学習には、画像と物体のクラスを示す教師ラベルとをそれぞれ対応付けた複数のサンプルを含む訓練データが使用される。ＧＰＵ１０４－１，１０４－２は、異なるサンプルを並列に処理することで、機械学習を高速化する。

機械学習は、所定回数のエポック（Epoch）を含む。例えば、図３の多層畳み込みニューラルネットワークを生成する機械学習は、５０回～６０回のエポックを含む。各エポックは、所定回数のイテレーション（Iteration）を含む。例えば、各エポックは、７６０回のイテレーションを含む。エポック間では、その時点の多層ニューラルネットワーク３１０，３２０の予測精度を評価するための検証（バリデーション）が行われる。予測精度の指標として、正答率（Accuracy）が用いられてもよい。正答率は、テスト用のサンプルの個数に対する予測が成功したサンプルの個数の割合である。

同一エポックの異なるイテレーションは、通常、訓練データの中の異なるサンプルを使用する。異なるエポックのイテレーションは、同一のサンプルを再度使用することがある。同一イテレーションにおいて、異なるＧＰＵは異なるサンプルを使用する。第２の実施の形態のサンプル使用方法は、オンライン学習またはミニバッチ学習である。オンライン学習では、１つのＧＰＵが１回のイテレーションで１つのサンプルを使用する。ミニバッチ学習では、１つのＧＰＵが１回のイテレーションで所定個数のサンプルを使用する。所定個数は、例えば、数十個程度である。

並列化された機械学習の各イテレーションは、FORWARDフェーズ、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズの４つのフェーズを含む。FORWARDフェーズでは、ＧＰＵ１０４－１は、多層ニューラルネットワーク３１０の先頭の層（入力層）に対して画像を入力する。すると、入力層から多層ニューラルネットワーク３１０の末尾の層（出力層）に向かって連続的に数値計算が行われ、出力層から予測結果が出力される。ＧＰＵ１０４－１は、予測結果と教師ラベルとの間の誤差を算出する。例えば、ＧＰＵ１０４－１は、複数のクラスのスコアを列挙した予測ベクトルと、正解のクラスに対応する値が１であり他のクラスに対応する値が０である正解ベクトルとを比較し、２つのベクトルの差の二乗和平方根を誤差として算出する。ミニバッチ学習では、ＧＰＵ１０４－１は、所定個数のサンプルの誤差の平均を算出する。

１つのノードに着目すると、ＧＰＵ１０４－１は、そのノードの前段の層に属する複数のノードの出力値にそれぞれエッジの重みを乗じて合算することで、前段の層の出力値の重み付き和を算出する。ＧＰＵ１０４－１は、この重み付き和を活性化関数に入力することで、そのノードの出力値を算出する。活性化関数の例として、シグモイド関数、ランプ関数、ソフトマックス関数などが挙げられる。活性化関数は、ハイパーパラメータとしてユーザから指定されてもよい。ＧＰＵ１０４－１は、そのノードの出力値を、後段の層に属する複数のノードに対して提供する。このようにして、FORWARDフェーズでは、入力層から出力層に向かって数値が伝播する。ＧＰＵ１０４－２は、ＧＰＵ１０４－１と並列に、多層ニューラルネットワーク３２０に対してFORWARDフェーズを実行する。

BACKWARDフェーズでは、ＧＰＵ１０４－１は、多層ニューラルネットワーク３１０の出力層から入力層に向かって逆順に、各エッジの重みの誤差勾配を算出する。誤差勾配は、誤差を重みの関数とみなした場合に、誤差を重みで偏微分した値に相当する。誤差勾配は、エッジの重みを微少量だけ変化させたときの誤差の変化量を表す。誤差勾配は、誤差が小さくなるように各エッジの重みを更新するために用いられる。誤差勾配を算出するアルゴリズムとして、誤差逆伝播法が用いられる。

ノード＃１とその後段のノード＃２との間のエッジに着目すると、ＧＰＵ１０４－１は、そのエッジの重みの誤差勾配を次の情報を利用して算出する。すなわち、誤差勾配が、ノード＃２とその後段のノードとの間のエッジの現在の重みおよび誤差勾配、FORWARDフェーズで算出されたノード＃２の出力値、FORWARDフェーズで算出されたノード＃１の出力値、活性化関数などに基づいて算出される。誤差勾配は、出力層に近い方から順に算出される。ＧＰＵ１０４－２は、ＧＰＵ１０４－１と並列に、多層ニューラルネットワーク３２０に対してBACKWARDフェーズを実行する。

COMMUNICATEフェーズでは、ＧＰＵ１０４－１，１０４－２は、相互に通信を行い、BACKWARDフェーズで算出された誤差勾配をエッジ毎に合算する。そして、ＧＰＵ１０４－１，１０４－２は、異なるサンプルから算出された同一エッジに対する誤差勾配の合計を、ＧＰＵの個数で割って、誤差勾配の平均を算出する。ＧＰＵ１０４－１，１０４－２によって算出される誤差勾配の平均は同一である。ＧＰＵ１０４－１，１０４－２の間の通信には、ＭＰＩ（Message Passing Interface）の集団通信（コレクティブ通信）が用いられてもよい。例えば、AllReduce通信が用いられる。

なお、COMMUNICATEフェーズは、入力層から出力層に向かう順で実行されてもよいし、出力層から入力層に向かう順で実行されてもよい。また、BACKWARDフェーズは出力層から入力層に向かって一方向に進行するため、BACKWARDフェーズが完了する前に、誤差勾配を算出済みの層に対してCOMMUNICATEフェーズが開始されてもよい。

UPDATEフェーズでは、ＧＰＵ１０４－１は、COMMUNICATEフェーズで算出された誤差勾配を用いて、多層ニューラルネットワーク３１０の各エッジの重みを更新する。このとき、ＧＰＵ１０４－１は、現在の重みから誤差勾配そのものを減じる代わりに、誤差勾配を減算値に変換して現在の重みから減算値を減じる。ＧＰＵ１０４－１は、誤差勾配から減算値への変換に、ハイパーパラメータである学習率を使用する。

学習率は、ブロック２１０，２２０，２３０，２４０，２５０に共通に設定されてもよいし、ブロック２１０，２２０，２３０，２４０，２５０それぞれに対して個別に設定されてもよい。第２の実施の形態では、後述するように、実行済みのエポック数が閾値に達したタイミングで、学習率が自動的に減少する。学習率が大きいほど、直近のサンプルの影響が重みに強く反映され、学習率が小さいほど、直近のサンプルの影響が重みに弱く反映される。ＧＰＵ１０４－１は、例えば、誤差勾配に学習率を乗じた値を減算値として使用する。この場合、更新前の重みをｗ、更新後の重みをｗ’、誤差勾配をΔｗ、学習率をηと表記すると、ｗ’＝ｗ－η×Δｗと定義される。

ＧＰＵ１０４－２は、ＧＰＵ１０４－１と並列に、多層ニューラルネットワーク３２０に対してUPDATEフェーズを実行する。なお、UPDATEフェーズは、入力層から出力層に向かう順で実行されてもよいし、出力層から入力層に向かう順で実行されてもよい。

図５は、機械学習における予測精度と誤差勾配の変化例を示すグラフである。
前述の図４で説明した機械学習が実行されると、モデルの予測精度は曲線４１のように変化することがある。曲線４１は、エポック間の検証で算出される予測精度を示している。ここでは、予測精度の指標は正答率である。また、図４で説明した機械学習が実行されると、誤差勾配は曲線４２のように変化することがある。曲線４２は、全ての重みに対して算出される誤差勾配の絶対値の平均を示している。

情報処理装置１００は、最初に学習率（ＬＲ：Learning Rate）を５．０に設定する。学習率が５．０に設定されてから初期の期間は、エポック数の増大に応じて、予測精度が大きく向上し誤差勾配が大きく低下する。しかし、学習率が固定のまま重みの更新が繰り返されると、重みが最適値からある程度離れた領域を巡回するようになり、それ以上最適値に近付かなくなることがある。このため、予測精度の向上や誤差勾配の低下には限界がある。その結果、予測精度は単調増加かつ上に凸の曲線に従って変化することがあり、誤差勾配は単調減少かつ下に凸の曲線に従って変化することがある。

そこで、情報処理装置１００は、実行済みのエポック数が所定回数に達すると、学習率を減少させる。例えば、情報処理装置１００は、エポックを３０回実行し終えたときに、学習率を初期値の１０分の１である０．５に変更する。学習率が０．５に変更されると、エポック数の増大に応じて、再び予測精度が大きく向上し誤差勾配が大きく低下する。これは、重みの１回の更新量が小さくなることで、学習率が５．０のときよりも重みが最適値に近付きやすくなるためである。ただし、学習率が５．０のときと同様、学習率が０．５のままでは予測精度の向上や誤差勾配の低下には限界がある。

そこで、情報処理装置１００は、実行済みのエポック数が所定回数に達すると、再び学習率を減少させる。例えば、情報処理装置１００は、学習率を更に１０分の１に減らして０．０５に変更する。同様に、情報処理装置１００は、実行済みのエポック数が所定回数に達すると、学習率を更に１０分の１に減らして０．００５に変更する。このように、情報処理装置１００は、エポック数に応じて段階的に学習率を引き下げる。

次に、機械学習の効率化について説明する。曲線４２は、モデルに含まれる全ての層の誤差勾配の平均が単調減少することを表している。しかし、全ての層の誤差勾配が均等に収束するとは限らず、異なる層の間で誤差勾配の収束にばらつきが生じることがある。

図６は、複数の層の間の誤差勾配のばらつきの例を示す図である。
多層ニューラルネットワーク３１０は、層３１１，３１２，３１３，３１４，３１５，３１６を含む。前述の図４の説明では、ＧＰＵ１０４－１は、各イテレーションにおいて全ての層に対してBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行している。そこで、ＧＰＵ１０４－１は、エポック＃１のイテレーション＃１において、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を算出する。また、ＧＰＵ１０４－１は、エポック＃１のイテレーション＃７６０でも、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を算出する。

ここで、図６に示す「層の誤差勾配」は、その層に含まれる複数の重みに対応する複数の誤差勾配の絶対値の平均である。エポック＃１のイテレーション＃１では、層３１１，３１２，３１３，３１４，３１５，３１６の何れの誤差勾配も大きい。これに対して、エポック＃１のイテレーション＃７６０では、層３１１，３１２，３１６の誤差勾配がまだ大きい一方、層３１３，３１４，３１５の誤差勾配が小さい。

このように、新たな学習率が設定されてからイテレーションが進むと、モデルに含まれる複数の層のうちの一部の層のみで誤差勾配が先行して収束することがある。多層畳み込みニューラルネットワークの場合、入力層に近い層（前方の層）の誤差勾配が、出力層に近い層（後方の層）よりも早く収束することがある。誤差勾配が収束した層の重みは、同じ学習率で更にイテレーションを実行しても、それ以上最適値に近付かないことがある。よって、誤差勾配が収束した層は、実質的に学習されていない層であると言える。

各イテレーションにおいて、誤差勾配が収束した層を含む全ての層に対してBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズが実行されると、予測精度の向上に寄与しない無駄な処理が発生して計算量が過大になることがある。そこで、情報処理装置１００は、一部の層の処理をスキップすることがある。スキップされる処理は、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズである。

図７は、一部の層のパラメータ更新をスキップする第１の例を示す図である。
エポック＃１のイテレーション＃１では、層３１１，３１２，３１３，３１４，３１５，３１６の何れもスキップ対象に指定されていない。そこで、ＧＰＵ１０４－１は、層３１１，３１２，３１３，３１４，３１５，３１６に対して、FORWARDフェーズ、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。その後、ＧＰＵ１０４－１は、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を監視し、誤差勾配が収束した層を検出する。ここでは、層３１１，３１２，３１６の誤差勾配が収束しておらず、層３１３，３１４，３１５の誤差勾配が収束したと仮定する。そこで、ＧＰＵ１０４－１は、層３１３，３１４，３１５をスキップ対象に指定する。

このとき、ＧＰＵ１０４－１は、BACKWARDフェーズで算出された誤差勾配に基づいて、誤差勾配が収束した層を検出する。ＧＰＵ１０４－２は、ＧＰＵ１０４－１と並列に、BACKWARDフェーズで算出された誤差勾配に基づいて、誤差勾配が収束した層を検出する。ＧＰＵ１０４－１，１０４－２は、COMMUNICATEフェーズにおいて、誤差勾配の収束の検出結果を相互に通知することで、スキップ対象の層（スキップ層）の決定を統一する。

決定されるスキップ層は、少なくとも１つのＧＰＵで誤差勾配が収束した層であってもよいし、全てのＧＰＵで誤差勾配が収束した層であってもよい。また、スキップ層は、誤差勾配が収束したＧＰＵの個数または割合が閾値以上である層であってもよい。なお、ＧＰＵ１０４－１，１０４－２は、COMMUNICATEフェーズで算出される誤差勾配の平均に基づいて、スキップ層を統一的に決定してもよい。

エポック＃１のイテレーション＃７６０では、ＧＰＵ１０４－１は、層３１１，３１２，３１３，３１４，３１５，３１６に対してFORWARDフェーズを実行する。また、ＧＰＵ１０４－１は、層３１１，３１２，３１６に対して、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。一方、ＧＰＵ１０４－１は、層３１３，３１４，３１５のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを省略する。

一部の層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズが省略されることで、１つのイテレーションの計算量および通信量が削減される。その結果、そのイテレーションの実行時間が短縮される。なお、層３１２の誤差勾配の計算には、後段の層３１３の誤差勾配が使用される。層３１３がスキップ層である場合、ＧＰＵ１０４－１は、層３１２の誤差勾配の計算に、層３１３に対して最後に算出された誤差勾配を使用する。そこで、ＧＰＵ１０４－１は、層３１３をスキップ層に指定するとき、最後に算出された層３１３の各重みの誤差勾配を保存しておく。

次に、誤差勾配の収束の判定の一例について説明する。
図８は、誤差勾配差分の算出例を示すグラフである。
曲線４３は、多層ニューラルネットワーク３１０の第ｎ番目の層（ｎ層）の誤差勾配の変化を示す。曲線４４は、第ｎ－１番目の層（ｎ－１層）の誤差勾配の時間変化を示す。図８の横軸は、イテレーション数を表す。ただし、図８においてイテレーション数＝０は、新しい学習率が設定された直後のイテレーションに相当する。エポックが変わっても、学習率が変化しない限り、図８の横軸のイテレーション数はリセットされない。よって、図８の横軸のイテレーション数は、７６０以上になることがある。

ここで、ＧＰＵ１０４－１が、イテレーションｍの時点でｎ層をスキップ層に指定するか否か判断することを考える。ＧＰＵ１０４－１は、イテレーションｍ－１において、ｎ層の誤差勾配Δｗ_{ｎ，ｍ－１}を記録しておく。ＧＰＵ１０４－１は、イテレーションｍにおいて、ｎ層の誤差勾配Δｗ_ｎ，ｍを算出し、イテレーションｍ－１の誤差勾配からイテレーションｍの誤差勾配を引いた誤差勾配差分ΔＡ_ｎ，ｍ＝Δｗ_{ｎ，ｍ－１}－Δｗ_ｎ，ｍを算出する。

また、ＧＰＵ１０４－１は、新しい学習率が設定された直後のイテレーション０において、ｎ層の誤差勾配Δｗ_ｎ，０（初期誤差勾配）を記録しておく。ＧＰＵ１０４－１は、誤差勾配Δｗ_ｎ，０に基づいて閾値を算出する。例えば、ＧＰＵ１０４－１は、初期誤差勾配の５％、すなわち、０．０５×Δｗ_ｎ，０を閾値として算出する。初期誤差勾配に対する倍率は、ユーザから指定されるハイパーパラメータであってもよい。

ＧＰＵ１０４－１は、誤差勾配差分ΔＡ_ｎ，ｍが閾値未満であるか判断する。誤差勾配差分ΔＡ_ｎ，ｍが閾値以上である場合、ＧＰＵ１０４－１は、ｎ層をスキップ層に指定せず、イテレーションｍ＋１でもｎ層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。一方、誤差勾配差分ΔＡ_ｎ，ｍが閾値未満である場合、ＧＰＵ１０４－１は、ｎ層をスキップ層に指定し、イテレーションｍ＋１以降のｎ層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを省略する。

ＧＰＵ１０４－１は、ｎ層と同様にｎ－１層についてもスキップ層に指定するか否か判断する。曲線４３，４４が示すように、ｎ層よりもｎ－１層の方が誤差勾配の収束が早いことがある。よって、ｎ層よりもｎ－１層の方が先にスキップ層に指定されることがある。ＧＰＵ１０４－１は、学習率が変更されたときにスキップ層の指定を解除する。

なお、図８で説明した方法は、実質的に学習が行われていない層を判定する方法の一例である。情報処理装置１００は、他の方法によって、実質的に学習が行われていない層を判定することも可能である。例えば、情報処理装置１００は、最新の誤差勾配差分が固定の閾値（例えば、ユーザから指定された閾値）未満である層を選択してもよい。また、例えば、情報処理装置１００は、最新の誤差勾配が閾値未満である層を選択してもよい。

次に、一部の層のパラメータ更新を省略することがモデル精度に与える影響について説明する。図８の曲線４３，４４は、説明を簡単にするため、イテレーション数の増加に対して誤差勾配が単調に減少することを示している。しかし、短期的には、誤差勾配が増減を繰り返すことがあり、常に単調に減少するとは限らない。よって、ある層の誤差勾配の減少が一時的に停滞して収束条件を満たしたとしても、その後、その層の誤差勾配が再び減少に転じて収束条件を満たさなくなる可能性がある。

このため、直近のイテレーションの実行結果が収束条件を満たす全ての層について、パラメータ更新を即時に停止してしまうと、停止タイミングが早すぎてしまい、パラメータの値が最適値に近付く機会を失ってしまう可能性がある。その結果、モデルの予測精度が低下するおそれがある。一方で、長期的観点からは、機械学習が進行するほど、実質的に学習が行われていない層は増加する。

そこで、情報処理装置１００は、直近のイテレーションの実行結果が収束条件を満たす層を、スキップ候補として選択する。そして、情報処理装置１００は、スキップ候補のうち一定割合の層をスキップ層に指定し、それ以外のスキップ候補をスキップ層に指定せずに猶予する。また、情報処理装置１００は、スキップ候補のうちスキップ層として採用する採用割合を、機械学習が進行するほど増加する可変割合として算出する。

図９は、スキップ層の採用割合の関数例を示すグラフである。
曲線４５は、イテレーション数に対する採用割合の変化を示す。採用割合Ｐは、スキップ候補数Ｎに対するスキップ層数ｘの比率であり、Ｐ＝ｘ／Ｎである。採用割合Ｐは、０以上１以下の実数である。曲線４６は、イテレーション数に対する残留割合の変化を示す。残留割合は、１から採用割合Ｐを引いた値である。残留割合１－Ｐは、スキップ候補数Ｎに対する残留層数（スキップ層以外の層数）Ｎ－ｘの比率であり、１－Ｐ＝（Ｎ－ｘ）／Ｎである。残留割合１－Ｐは、０以上１以下の実数である。

曲線４５，４６の横軸は、機械学習の開始からの総イテレーション数を表す。よって、曲線４５，４６の横軸のイテレーション数は、エポックが変わってもリセットされず、学習率が変化してもリセットされない。エポック数が６０かつ各エポックのイテレーション数が７６０の場合、イテレーション数の最大は６０×７６０－１である。

曲線４５は、イテレーション数に対して採用割合が単調に増加することを示している。曲線４６は、イテレーション数に対して残留割合が単調に減少することを示している。曲線４５は、シグモイド曲線（いわゆるＳ字曲線）であってもよい。その場合、機械学習の序盤には採用割合が緩やかに増加し、機械学習の中盤には採用割合が大きく増加し、機械学習の終盤には採用割合が緩やかに増加する。イテレーション数が０のときＰ＝０でもよく、イテレーション数が最大のときＰ＝１でもよく、イテレーション数が中間のときＰ＝０．５でもよい。なお、曲線４５が他の曲線であってもよく、直線でもよい。また、採用割合を算出するための関数が、ハイパーパラメータとしてユーザから指定されてもよい。

情報処理装置１００は、あるイテレーションでＮ個のスキップ候補を選択すると、そのイテレーションに対応する採用割合Ｐを曲線４５から特定する。情報処理装置１００は、スキップ候補数Ｎに採用割合Ｐを乗じてスキップ層数ｘを決定する。Ｐ＝０．５である場合、情報処理装置１００は、スキップ候補の半数をスキップ層として採用する。なお、イテレーション数の増加に伴ってスキップ候補数Ｎも増加することが期待される。よって、スキップ候補数Ｎと採用割合Ｐの増加により、スキップ層数ｘは増加する。

図１０は、一部の層のパラメータ更新をスキップする第２の例を示す図である。
エポック＃１のイテレーション＃１では、層３１１，３１２，３１３，３１４，３１５，３１６の何れもスキップ対象に指定されていない。そこで、ＧＰＵ１０４－１は、層３１１，３１２，３１３，３１４，３１５，３１６に対して、FORWARDフェーズ、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。その後、ＧＰＵ１０４－１は、層３１１，３１２，３１３，３１４，３１５，３１６の誤差勾配を監視し、収束条件を満たす層を検出する。ここでは、層３１１，３１２，３１６が収束条件を満たしておらず、層３１３，３１４，３１５が収束条件を満たしたと仮定する。そこで、ＧＰＵ１０４－１は、層３１３，３１４，３１５をスキップ候補として選択する。

このとき、ＧＰＵ１０４－１は、現在のイテレーションに対応する採用割合を２／３と算出したと仮定する。すると、ＧＰＵ１０４－１は、スキップ候補である層３１３，３１４，３１５のうち２つの層をスキップ層に指定する。ここでは、ＧＰＵ１０４－１は、層３１３，３１５をスキップ層に指定し、層３１４をスキップ層に指定しない。

すると、エポック＃１のイテレーション＃７６０では、ＧＰＵ１０４－１は、層３１１，３１２，３１３，３１４，３１５，３１６に対してFORWARDフェーズを実行する。また、ＧＰＵ１０４－１は、層３１１，３１２，３１４，３１６に対して、BACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを実行する。一方、ＧＰＵ１０４－１は、層３１３，３１５のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズを省略する。このように、機械学習の途中では収束条件を満たすスキップ候補の一部のみがスキップ層として採用され、採用割合は機械学習の進行に伴って増加する。よって、パラメータ更新の停止が早すぎることによるモデルの精度低下を抑制できる。

次に、Ｎ個のスキップ候補からｘ個のスキップ層を抽出する方法について説明する。情報処理装置１００は、Ｎ個のスキップ候補の中からｘ個のスキップ層をランダムに抽出することも可能である。ただし、情報処理装置１００は、以下に説明する５つの判定基準のうちの何れか１つを用いてもよく、２以上の判定基準を組み合わせて用いてもよい。

（Ｄ１）情報処理装置１００は、層毎に、直近の所定イテレーション数の間の誤差勾配の時間平均（平均誤差勾配）を算出する。直近の所定イテレーション数は、１エポック分である７６０イテレーションであってもよい。また、平均誤差勾配は、新たなエポックの開始によってリセットされてもよく、学習率の変更によってリセットされてもよい。情報処理装置１００は、スキップ候補のうち平均誤差勾配が小さい層を優先的に抽出してもよい。また、情報処理装置１００は、平均誤差勾配が閾値未満の層を抽出してもよい。

（Ｄ２）情報処理装置１００は、層毎に、直近の所定イテレーション数の間の誤差勾配差分の時間平均（平均差分）を算出する。直近の所定イテレーション数は、１エポック分である７６０イテレーションであってもよい。また、平均差分は、新たなエポックの開始によってリセットされてもよく、学習率の変更によってリセットされてもよい。情報処理装置１００は、スキップ候補のうち平均差分が小さい層を優先的に抽出してもよい。また、情報処理装置１００は、平均差分が閾値未満の層を抽出してもよい。

（Ｄ３）情報処理装置１００は、図３に示す多層ニューラルネットワークのブロック２１０，２２０，２３０，２４０，２５０の構造に基づいて、スキップ層を決定する。スキップ層は、同一のブロックに集中しないことが好ましい。例えば、情報処理装置１００は、スキップ候補のうちブロック２１０，２２０，２３０，２４０，２５０それぞれにつき１個または所定個数以下の層を抽出し、残ったスキップ候補を採用しない。

また、スキップ層は、同一のボトルネックブロックに集中しないことが好ましい。例えば、情報処理装置１００は、スキップ候補のうちボトルネックブロック毎に高々１個の層を抽出し、残ったスキップ候補を採用しない。同一のブロックまたはボトルネックブロックから２以上のスキップ候補が選択されている場合、情報処理装置１００は、それら２以上のスキップ候補の中からランダムにスキップ層を抽出してもよいし、入力に近い層を抽出してもよい。また、情報処理装置１００は、畳み込み層のみをスキップ層に採用し、畳み込み層以外の層をスキップ層に採用しない。

（Ｄ４）情報処理装置１００は、多層ニューラルネットワークにおけるスキップ候補間の間隔に基づいて、スキップ層を決定する。スキップ層は、連続しないことが好ましく、多層ニューラルネットワーク全体に分散することが好ましい。例えば、情報処理装置１００は、スキップ候補の中から、間隔を所定層（例えば、２層）以上空けてスキップ層を抽出する。２以上のスキップ候補が密集している場合、情報処理装置１００は、一部のスキップ候補を間引いてスキップ層の間隔を空ける。

（Ｄ５）情報処理装置１００は、入力に近い層を優先的に抽出する。
第２の実施の形態では、これら判定基準の好適な組み合わせとして、判定基準Ｄ１，Ｄ４，Ｄ５の組み合わせ、判定基準Ｄ２，Ｄ４，Ｄ５の組み合わせ、および、判定基準Ｄ３，Ｄ１，Ｄ２，Ｄ５の組み合わせを例示する。好適な組み合わせの詳細は後述する。

次に、情報処理装置１００の機能および処理手順について説明する。
図１１は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、訓練データ記憶部１２１、モデル記憶部１２２および誤差勾配記憶部１２３を有する。これらの記憶部は、例えば、ＧＰＵメモリ１０５の記憶領域を用いて実現される。ただし、ＲＡＭ１０２の記憶領域が使用されてもよい。また、情報処理装置１００は、イテレーション実行部１３０、スキップ制御部１４０および学習率制御部１５１を有する。これらの処理部は、例えば、ＧＰＵ１０４－１，１０４－２，１０４－３，１０４－４それぞれが実行するプログラムを用いて実現される。ただし、ＣＰＵ１０１で実行されるプログラムが使用されてもよい。

訓練データ記憶部１２１は、訓練データを記憶する。訓練データは、複数のサンプルを含む。各サンプルは、入力データと教師ラベルとを含む。入力データは、例えば、画像である。教師ラベルは、例えば、画像に写った物体のクラスを示すラベルである。モデル記憶部１２２は、多層ニューラルネットワークを記憶する。多層ニューラルネットワークは、例えば、図３の多層畳み込みニューラルネットワークである。誤差勾配記憶部１２３は、機械学習の途中で算出された各層の誤差勾配の情報を記憶する。

イテレーション実行部１３０は、イテレーションを反復実行して、モデル記憶部１２２に記憶された多層ニューラルネットワークの重みを更新する。イテレーション実行部１３０は、実行済みのイテレーション数をカウントし、訓練データ記憶部１２１に記憶された訓練データの中から適切なサンプルを抽出する。また、イテレーション実行部１３０は、エポック数をカウントし、イテレーションの停止を判断する。

イテレーション実行部１３０は、FORWARD部１３１、BACKWARD部１３２、COMMUNICATE部１３３およびUPDATE部１３４を有する。FORWARD部１３１は、前述のFORWARDフェーズを実行する。FORWARDフェーズは、異なるサンプルに対して異なるＧＰＵが並列に実行できる。BACKWARD部１３２は、FORWARDフェーズに続いて前述のBACKWARDフェーズを実行する。BACKWARDフェーズは、複数のＧＰＵが並列に実行できる。ただし、スキップ制御部１４０からの指示により、一部の層の処理がスキップされることがある。

COMMUNICATE部１３３は、BACKWARDフェーズに続いて前述のCOMMUNICATEフェーズを実行する。BACKWARDフェーズでは、複数のＧＰＵがAllReduce通信などの集団通信を行う。ただし、スキップ制御部１４０からの指示により、一部の層の処理がスキップされることがある。UPDATE部１３４は、COMMUNICATEフェーズに続いて前述のUPDATEフェーズを実行する。UPDATEフェーズに使用する学習率は、学習率制御部１５１から指定される。UPDATEフェーズは、複数のＧＰＵが並列に実行できる。ただし、スキップ制御部１４０からの指示により、一部の層の処理がスキップされることがある。

スキップ制御部１４０は、実質的に学習が行われていない層をスキップ層に指定し、BACKWARD部１３２、COMMUNICATE部１３３およびUPDATE部１３４にスキップ層を通知する。
スキップ制御部１４０は、誤差勾配監視部１４１、閾値算出部１４２、スキップ候補選択部１４３およびスキップ層決定部１４４を有する。誤差勾配監視部１４１は、BACKWARD部１３２から、イテレーション毎に各エッジの重みの誤差勾配を取得する。誤差勾配監視部１４１は、各層の誤差勾配を算出して誤差勾配記憶部１２３に登録する。また、誤差勾配監視部１４１は、層毎に誤差勾配差分を算出してスキップ候補選択部１４３に提供する。また、誤差勾配監視部１４１は、各層の初期誤差勾配を閾値算出部１４２に提供する。また、誤差勾配監視部１４１は、スキップ候補の中からスキップ層を抽出するための情報（例えば、平均誤差勾配や平均差分）を、スキップ層決定部１４４に提供する。

閾値算出部１４２は、新たな学習率が設定される毎かつ層毎に、誤差勾配監視部１４１から提供された初期誤差勾配に基づいて閾値を算出する。閾値は、例えば、初期誤差勾配に、ハイパーパラメータとしてユーザから指定された比率（例えば、５％）を乗じた値である。閾値算出部１４２は、各層の閾値をスキップ候補選択部１４３に通知する。

スキップ候補選択部１４３は、イテレーション毎かつ層毎に、誤差勾配監視部１４１から提供された誤差勾配差分と閾値算出部１４２から通知された閾値とを比較する。スキップ候補選択部１４３は、誤差勾配差分が閾値未満の層をスキップ候補に選択する。なお、閾値算出部１４２およびスキップ候補選択部１４３の上記説明は、スキップ候補を選択する処理の一例である。スキップ候補選択部１４３は、他の方法でスキップ候補を選択してもよい。例えば、誤差勾配差分の閾値が固定値であってもよい。また、例えば、スキップ候補選択部１４３は、誤差勾配が所定値未満の層をスキップ候補に選択してもよい。スキップ候補選択部１４３は、選択したスキップ候補をスキップ層決定部１４４に通知する。

スキップ層決定部１４４は、スキップ候補選択部１４３が選択したスキップ候補の中からスキップ層を決定する。スキップ層決定部１４４は、シグモイド関数などの所定の関数に基づいて、機械学習の開始からの総イテレーション数に対応する採用割合を算出する。スキップ層決定部１４４は、スキップ候補数に採用割合を乗じてスキップ層数を算出し、スキップ候補の中からスキップ層数だけ層を抽出する。抽出する層の決定には、前述の５つの判定基準のうちの１つ以上が使用される。スキップ層決定部１４４は、決定したスキップ層をBACKWARD部１３２、COMMUNICATE部１３３およびUPDATE部１３４に通知する。

学習率制御部１５１は、ハイパーパラメータとしてユーザから指定された学習率の初期値を、UPDATE部１３４に通知する。また、学習率制御部１５１は、実行済みのエポック数をカウントし、エポック数が所定数に達したときに学習率を変更する。例えば、学習率制御部１５１は、学習率変更の契機毎に、学習率を現在の１０分の１に下げる。学習率制御部１５１は、変更後の学習率をUPDATE部１３４に通知する。

図１２は、誤差勾配テーブルの例を示す図である。
誤差勾配テーブル１２４は、誤差勾配記憶部１２３に記憶される。誤差勾配テーブル１２４には、複数の層それぞれについて、層番号、初期誤差勾配、前回誤差勾配、平均誤差勾配および平均差分が登録される。層番号は、層を識別する識別番号である。初期誤差勾配は、新たな学習率が設定された直後のイテレーションの誤差勾配である。前回誤差勾配は、１つ前のイテレーションの誤差勾配である。

イテレーションｍの誤差勾配が算出される前は、誤差勾配テーブル１２４には、前回誤差勾配としてイテレーションｍ－１の誤差勾配が登録されている。イテレーションｍの誤差勾配が算出されると、誤差勾配テーブル１２４には、前回誤差勾配としてイテレーションｍの誤差勾配が上書きされる。このとき、イテレーションｍ－１の誤差勾配とイテレーションｍの誤差勾配の差が、誤差勾配差分として算出される。なお、誤差勾配テーブル１２４に登録される各層の誤差勾配は、BACKWARDフェーズの結果から、その層に含まれる複数の重みに対応する複数の誤差勾配の絶対値の平均として算出される。

平均誤差勾配は、現在のイテレーションから所定数前までのイテレーションの間の誤差勾配の移動平均である。平均差分は、現在のイテレーションから所定数前までのイテレーションの間の誤差勾配差分の移動平均である。平均誤差勾配および平均差分は、新たなイテレーションの誤差勾配が算出される毎に更新される。なお、平均誤差勾配および平均差分の算出に、所定数前までの各イテレーションの誤差勾配を使用する場合、情報処理装置１００は、各イテレーションの誤差勾配を誤差勾配テーブル１２４に登録してもよい。

図１３は、機械学習の手順例を示すフローチャートである。
この機械学習の手順は、例えば、複数のＧＰＵにおいて並列に実行される。
（Ｓ１０）学習率制御部１５１は、学習率の初期値を設定する。

（Ｓ１１）イテレーション実行部１３０は、訓練データからサンプルを抽出する。FORWARD部１３１は、抽出されたサンプルを用いてFORWARDフェーズを実行する。FORWARDフェーズでは、FORWARD部１３１は、サンプルに含まれる入力データをモデルに入力し、サンプルに含まれる教師ラベルとモデルの出力との間の誤差を算出する。

（Ｓ１２）BACKWARD部１３２は、出力に近い方から優先的に層を１つ選択する。
（Ｓ１３）BACKWARD部１３２は、ステップＳ１２で選択した層がスキップ層に指定されているか判断する。選択した層がスキップ層である場合はステップＳ１５に進み、選択した層がスキップ層でない場合はステップＳ１４に進む。

（Ｓ１４）BACKWARD部１３２は、選択した層に対してBACKWARDフェーズの処理を実行する。ここでは、BACKWARD部１３２は、誤差逆伝播法によって、選択した層に属するエッジの重みの誤差勾配を算出する。後段の層がスキップ層である場合、後段の層に属するエッジの重みの誤差勾配が今回のイテレーションで算出されていない。その場合、BACKWARD部１３２は、後段の層に対して最後に算出された誤差勾配を読み出して使用する。

（Ｓ１５）BACKWARD部１３２は、ステップＳ１２において全ての層を選択したか、すなわち、モデルの中の先頭の層に到達したか判断する。全ての層を選択した場合はステップＳ１６に進み、未選択の層がある場合はステップＳ１２に戻る。

（Ｓ１６）誤差勾配監視部１４１は、BACKWARD部１３２で算出された各エッジの重みの誤差勾配を取得する。誤差勾配監視部１４１は、取得した誤差勾配を層毎に分類し、各層の誤差勾配の絶対値の平均を、その層の誤差勾配として算出する。

（Ｓ１７）誤差勾配監視部１４１は、今回のイテレーションが新たな学習率の設定直後のイテレーション（イテレーション０）であるか判断する。イテレーション０の場合はステップＳ１８に進み、イテレーション０でない場合はステップＳ２０に進む。

（Ｓ１８）誤差勾配監視部１４１は、ステップＳ１６で算出した各層の誤差勾配を、初期誤差勾配および前回誤差勾配として誤差勾配テーブル１２４に登録する。
（Ｓ１９）閾値算出部１４２は、初期誤差勾配から閾値を算出する。例えば、閾値算出部１４２は、初期誤差勾配の５％を閾値と規定する。そして、ステップＳ２５に進む。

図１４は、機械学習の手順例を示すフローチャート（続き１）である。
（Ｓ２０）誤差勾配監視部１４１は、層毎に、誤差勾配テーブル１２４に登録された前回誤差勾配から、ステップＳ１６で算出した誤差勾配を引いて誤差勾配差分を算出する。また、誤差勾配監視部１４１は、ステップＳ１６で算出した誤差勾配を、前回誤差勾配として誤差勾配テーブル１２４に上書きする。

（Ｓ２１）誤差勾配監視部１４１は、層毎に、誤差勾配テーブル１２４に登録された情報とステップＳ１６で算出した誤差勾配から、平均誤差勾配を算出する。また、誤差勾配監視部１４１は、層毎に、誤差勾配テーブル１２４に登録された情報とステップＳ２０で算出した誤差勾配差分から、平均差分を算出する。誤差勾配監視部１４１は、算出した平均誤差勾配および平均差分を誤差勾配テーブル１２４に上書きする。

（Ｓ２２）スキップ候補選択部１４３は、ステップＳ２０で算出された誤差勾配差分が、ステップＳ１９で算出された閾値未満である層を、スキップ候補として選択する。なお、この選択方法は一例であり、他の方法によってスキップ候補が選択されてもよい。

（Ｓ２３）スキップ層決定部１４４は、機械学習の開始からの総イテレーション数に対応する採用割合Ｐを算出する。例えば、スキップ層決定部１４４は、機械学習の間に不変なシグモイド曲線に基づいて採用割合Ｐを算出する。また、スキップ層決定部１４４は、スキップ候補数Ｎをカウントする。そして、スキップ層決定部１４４は、スキップ候補数Ｎに採用割合Ｐを乗じて、スキップ層数ｘを算出する。

なお、同一の学習率のもとでイテレーションが繰り返されると、スキップ制御部１４０は、あるイテレーションで１以上の層をスキップ層に指定し、その後のイテレーションで追加的に１以上のスキップ候補を選択する可能性がある。そこで、上記のスキップ候補数Ｎは、追加的に選択されたスキップ候補の個数であってもよい。その場合、スキップ層数ｘには、指定済みのスキップ層の個数は含まれない。一方、上記のスキップ候補数Ｎは、収束条件を満たすと判断された層の総数、すなわち、指定済みのスキップ層の個数と追加的に選択されたスキップ候補の個数の合計であってもよい。その場合、スキップ層数ｘには、指定済みのスキップ層の個数が含まれる。

（Ｓ２４）スキップ層決定部１４４は、ステップＳ２２で選択されたＮ個のスキップ候補の中から、ｘ個のスキップ層を抽出する。スキップ層抽出には、前述の５つの判定基準のうちの１つ以上が用いられる。スキップ層抽出の例については後述する。

（Ｓ２５）COMMUNICATE部１３３は、層を１つ選択する。
（Ｓ２６）COMMUNICATE部１３３は、ステップＳ２５で選択した層が、前イテレーションまでにスキップ層に指定済みか判断する。選択した層がスキップ層の場合はステップＳ２８に進み、選択した層がスキップ層でない場合はステップＳ２７に進む。

（Ｓ２７）COMMUNICATE部１３３は、選択した層に対してCOMMUNICATEフェーズの処理を実行する。ここでは、COMMUNICATE部１３３は、ＧＰＵ間のAllReduce通信により、複数のＧＰＵで算出された誤差勾配をエッジの重み毎に合計する。COMMUNICATE部１３３は、誤差勾配の合計をＧＰＵの個数で割ることで、誤差勾配の平均を算出する。これにより、複数のＧＰＵの間で誤差勾配が集計される。また、COMMUNICATE部１３３は、ＧＰＵ間通信によって、スキップ層として抽出された層の情報を収集する。

（Ｓ２８）COMMUNICATE部１３３は、ステップＳ２５において全ての層を選択したか判断する。全ての層を選択した場合はステップＳ２９に進み、未選択の層がある場合はステップＳ２５に戻る。なお、COMMUNICATE部１３３は、複数の層を順方向（入力から出力の方向）に選択してもよいし、逆方向（出力から入力の方向）に選択してもよい。また、COMMUNICATE部１３３は、複数の層のCOMMUNICATEフェーズを並列に実行してもよい。

図１５は、機械学習の手順例を示すフローチャート（続き２）である。
（Ｓ２９）UPDATE部１３４は、層を１つ選択する。
（Ｓ３０）UPDATE部１３４は、ステップＳ２９で選択した層が、前イテレーションまでにスキップ層に指定済みか判断する。選択した層がスキップ層の場合はステップＳ３２に進み、選択した層がスキップ層でない場合はステップＳ３１に進む。

（Ｓ３１）UPDATE部１３４は、選択した層に対してUPDATEフェーズの処理を実行する。ここでは、UPDATE部１３４は、選択した層に属するエッジの重みを、COMMUNICATEフェーズで集計された誤差勾配と現在の学習率とに基づいて更新する。例えば、UPDATE部１３４は、誤差勾配に学習率を乗じて減算値を算出し、現在の重みから減算値を引く。

（Ｓ３２）UPDATE部１３４は、ステップＳ２９において全ての層を選択したか判断する。全ての層を選択した場合はステップＳ３３に進み、未選択の層がある場合はステップＳ２９に戻る。なお、UPDATE部１３４は、複数の層を順方向（入力から出力の方向）に選択してもよいし、逆方向（出力から入力の方向）に選択してもよい。

（Ｓ３３）スキップ層決定部１４４は、ステップＳ２７で収集された情報に基づいて、ＧＰＵ間の合意としてスキップ層を決定する。スキップ候補の中から抽出された層がＧＰＵ間で一致している場合、スキップ層決定部１４４は、抽出された層をスキップ層に決定する。抽出された層がＧＰＵ間で相違する場合、スキップ層決定部１４４は、予め定めた投票アルゴリズムに従って、各層をスキップ層に指定するか否か決定する。

（Ｓ３４）イテレーション実行部１３０は、今回のイテレーションで全てのエポックが終了したか判断する。例えば、イテレーション実行部１３０は、７６０イテレーション×６０エポックが終了したか判断する。全てのエポックが終了した場合は機械学習が停止し、それ以外の場合はステップＳ３５に進む。

（Ｓ３５）学習率制御部１５１は、区切りとなる所定のエポック数に到達したか判断する。所定のエポック数は、複数個あってもよい。所定のエポック数に到達した場合はステップＳ３６に進み、それ以外の場合はステップＳ１１に戻る。

（Ｓ３６）学習率制御部１５１は、学習率を１段階下げる。例えば、学習率制御部１５１は、学習率を現在の１０分の１に変更する。学習率が変更されると、スキップ層決定部１４４は、スキップ層の指定を解除する。これにより、次のイテレーションでは、全ての層に対してBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズが実行されることになる。そして、ステップＳ１１に戻る。

次に、前述のステップＳ２４で実行されるスキップ層抽出の例を説明する。以下では、前述の５つの判定基準の一部を組み合わせる方法として３通りの例を挙げる。
なお、前述のように、算出されたスキップ層数ｘに、既存のスキップ層の個数が含まれていないことがある。その場合、スキップ層決定部１４４は、あるスキップ候補と他のスキップ候補との間の関係だけでなく、あるスキップ候補と既存のスキップ層との間の関係も考慮して、当該スキップ候補を抽出するか否か決定してもよい。また、スキップ層決定部１４４は、スキップ候補と既存のスキップ層との間の関係を考慮しなくてもよい。

また、前述のように、算出されたスキップ層数ｘに、既存のスキップ層の個数が含まれていることがある。その場合、スキップ層決定部１４４は、既存のスキップ層を優先的にスキップ層に指定し、スキップ層数ｘのうち既存のスキップ層の個数を超える部分をスキップ候補の中から補充してもよい。また、スキップ層決定部１４４は、既存のスキップ層も含めて、ｘ個のスキップ層を決定し直すようにしてもよい。

図１６は、第１のスキップ層抽出の手順例を示すフローチャートである。
（Ｓ４０）スキップ層決定部１４４は、誤差勾配テーブル１２４から、各スキップ候補の平均誤差勾配を読み出す。スキップ層決定部１４４は、平均誤差勾配が閾値未満のスキップ候補を抽出する。閾値は、ユーザから指定されるハイパーパラメータでもよい。

（Ｓ４１）スキップ層決定部１４４は、ステップＳ４０で抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ４２）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ４３に進む。
（Ｓ４３）スキップ層決定部１４４は、同一ブロックにスキップ層が集中しないように、ブロック１個当たりのスキップ層数の上限を設定する。スキップ層決定部１４４は、上限を超えないように、異なるブロックからスキップ候補を抽出する。

（Ｓ４４）スキップ層決定部１４４は、ステップＳ４３で抽出したスキップ候補から畳み込み層以外の層を除去して、抽出するスキップ候補を畳み込み層に限定する。
（Ｓ４５）スキップ層決定部１４４は、ステップＳ４３，Ｓ４４を通じて抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ４６）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ４７に進む。
（Ｓ４７）スキップ層決定部１４４は、入力に近い方から優先的に、スキップ層数がｘに到達するまでスキップ候補を抽出し、スキップ層の集合に追加する。

このように、第１のスキップ層抽出では、前述の判定基準Ｄ１，Ｄ４，Ｄ５が順に使用される。判定基準Ｄ１が優先的に使用され、スキップ層が不足する場合は次に判定基準Ｄ４が使用され、更にスキップ層が不足する場合は判定基準Ｄ５が使用される。

図１７は、第２のスキップ層抽出の手順例を示すフローチャートである。
（Ｓ５０）スキップ層決定部１４４は、誤差勾配テーブル１２４から、各スキップ候補の平均差分を読み出す。スキップ層決定部１４４は、平均差分が閾値未満のスキップ候補を抽出する。閾値は、ユーザから指定されるハイパーパラメータでもよい。

（Ｓ５１）スキップ層決定部１４４は、ステップＳ５０で抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ５２）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ５３に進む。
（Ｓ５３）スキップ層決定部１４４は、同一ブロックにスキップ層が集中しないように、ブロック１個当たりのスキップ層数の上限を設定する。スキップ層決定部１４４は、上限を超えないように、異なるブロックからスキップ候補を抽出する。

（Ｓ５４）スキップ層決定部１４４は、ステップＳ５３で抽出したスキップ候補から畳み込み層以外の層を除去して、抽出するスキップ候補を畳み込み層に限定する。
（Ｓ５５）スキップ層決定部１４４は、ステップＳ５３，Ｓ５４を通じて抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ５６）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ５７に進む。
（Ｓ５７）スキップ層決定部１４４は、入力に近い方から優先的に、スキップ層数がｘに到達するまでスキップ候補を抽出し、スキップ層の集合に追加する。

このように、第２のスキップ層抽出では、前述の判定基準Ｄ２，Ｄ４，Ｄ５が順に使用される。判定基準Ｄ２が優先的に使用され、スキップ層が不足する場合は次に判定基準Ｄ４が使用され、更にスキップ層が不足する場合は判定基準Ｄ５が使用される。

図１８は、第３のスキップ層抽出の手順例を示すフローチャートである。
（Ｓ６０）スキップ層決定部１４４は、スキップ層が連続して出現しないように、スキップ層の間隔の下限（例えば、２層）を設定する。スキップ層決定部１４４は、スキップ層の間隔が下限未満にならないように、間欠的にスキップ候補を抽出する。

（Ｓ６１）スキップ層決定部１４４は、ステップＳ６０で抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ６２）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ６３に進む。
（Ｓ６３）スキップ層決定部１４４は、誤差勾配テーブル１２４から、各スキップ候補の平均誤差勾配を読み出す。スキップ層決定部１４４は、平均誤差勾配が閾値未満のスキップ候補を抽出する。閾値は、ユーザから指定されるハイパーパラメータでもよい。

（Ｓ６４）スキップ層決定部１４４は、ステップＳ６３で抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ６５）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ６６に進む。
（Ｓ６６）スキップ層決定部１４４は、誤差勾配テーブル１２４から、各スキップ候補の平均差分を読み出す。スキップ層決定部１４４は、平均差分が閾値未満のスキップ候補を抽出する。閾値は、ユーザから指定されるハイパーパラメータでもよい。

（Ｓ６７）スキップ層決定部１４４は、ステップＳ６６で抽出したスキップ候補を、スキップ層の集合に追加する。なお、抽出したスキップ候補の全てを集合に追加するとスキップ層数がｘを超える場合、スキップ層決定部１４４は、スキップ層数がｘになるように、抽出したスキップ候補の一部を集合に追加する。

（Ｓ６８）スキップ層決定部１４４は、スキップ層数がｘに到達したか判断する。到達した場合はスキップ層抽出が終了し、それ以外の場合はステップＳ６９に進む。
（Ｓ６９）スキップ層決定部１４４は、入力に近い方から優先的に、スキップ層数がｘに到達するまでスキップ候補を抽出し、スキップ層の集合に追加する。

このように、第３のスキップ層抽出では、前述の判定基準Ｄ３，Ｄ１，Ｄ２，Ｄ５が順に使用される。判定基準Ｄ３が優先的に使用され、スキップ層が不足する場合は次に判定基準Ｄ１が使用され、更にスキップ層が不足する場合は次に判定基準Ｄ２が使用され、更にスキップ層が不足する場合は判定基準Ｄ５が使用される。

第２の実施の形態の情報処理装置１００によれば、各層の誤差勾配が監視され、直近のイテレーションの誤差勾配が収束条件を満たした層がスキップ候補として選択される。スキップ候補のうち、機械学習の進行に伴って単調に増加する採用割合だけ、スキップ層に指定される。そして、学習率が変更されるまで、スキップ層のBACKWARDフェーズ、COMMUNICATEフェーズおよびUPDATEフェーズの処理が省略される。

これにより、現在の学習率のもとで誤差勾配が収束して実質的に学習が行われなくなった層の少なくとも一部について、誤差勾配の計算、ＧＰＵ間通信および重みの更新が停止する。よって、無駄な処理が削減されて計算量が削減される。その結果、機械学習の実行時間が短縮される。また、収束条件を満たすスキップ候補の全てが即時にスキップ層に指定されるわけではなく、スキップ層の指定が遅延する。よって、一時的に誤差勾配の減少が停滞した後に、再び誤差勾配が大きく減少する可能性を考慮することができる。そのため、パラメータ改善の機会を失うリスクを低減でき、モデルの予測精度が向上する。

また、採用割合が機械学習の進行に伴って単調に増加するため、実質的に学習が行われなくなった層が徐々に増加するという機械学習の長期的トレンドを、スキップ制御に反映させることができる。よって、計算量の削減とモデル精度の向上のバランスを図ることができる。また、スキップ候補は、学習率が設定または変更された直後の初期誤差勾配に応じた閾値を、誤差勾配差分が超えるという収束条件に基づいて、選択することが可能である。これにより、同一の学習率のもとでの誤差勾配のレベルに応じた適切な収束判定が可能となる。また、学習率が変更されて誤差勾配が再び減少することが期待される場合には、各層の誤差勾配の計算、ＧＰＵ間通信および重みの更新が再開される。

以上の第１、第２の実施の形態を含む実施の形態に関し、更に以下の付記を開示する。
（付記１）コンピュータに、
それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いて前記モデルの出力の誤差を算出し、前記誤差に基づいて前記複数の層それぞれの前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、
前記学習処理の第１のイテレーションの実行結果に基づいて、前記複数の層のうち前記パラメータの値の更新を抑止する候補を示す２以上の候補層を選択し、
前記第１のイテレーションまでのイテレーションの実行回数に基づいて、前記実行回数が多いほど大きい割合値を算出し、前記２以上の候補層のうち前記割合値に応じた個数の層に対して、前記第１のイテレーションより後の第２のイテレーションにおいて前記パラメータの値の更新を抑止することを決定する、
処理を実行させる学習プログラム。

（付記２）前記割合値に応じた個数は、候補層の個数に前記割合値を乗じて算出される、
付記１記載の学習プログラム。

（付記３）前記実行回数に対応する前記割合値は、シグモイド曲線に基づいて算出される、
付記１記載の学習プログラム。

（付記４）前記２以上の候補層のうち前記割合値に応じた個数の層以外の残りの層に対しては、前記第２のイテレーションにおいて前記パラメータの値の更新が実行される、
付記１記載の学習プログラム。

（付記５）前記学習処理は、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新することを含み、
前記２以上の候補層の選択では、前記複数の層それぞれに対してイテレーション間の前記誤差勾配の変化量を監視し、前記変化量が閾値未満の層を選択する、
付記１記載の学習プログラム。

（付記６）前記モデルは、多層ニューラルネットワークである、
付記１記載の学習プログラム。
（付記７）前記学習処理は、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新することを含み、
前記コンピュータに更に、前記複数の層それぞれに対して、前記第１のイテレーションまでのイテレーションにおける前記誤差勾配の平均を算出する処理を実行させ、
前記割合値に応じた個数の層は、前記誤差勾配の平均に基づいて決定される、
付記１記載の学習プログラム。

（付記８）前記学習処理は、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新することを含み、
前記コンピュータに更に、前記複数の層それぞれに対して、イテレーション間の前記誤差勾配の変化量を監視し、前記第１のイテレーションまでの前記変化量の平均を算出する処理を実行させ、
前記割合値に応じた個数の層は、前記変化量の平均に基づいて決定される、
付記１記載の学習プログラム。

（付記９）前記複数の層は、それぞれ２以上の層を含む複数のブロックに分類されており、
前記割合値に応じた個数の層は、属するブロックの同一性に基づいて決定される、
付記１記載の学習プログラム。

（付記１０）前記割合値に応じた個数の層は、層間の間隔に基づいて決定される、
付記１記載の学習プログラム。
（付記１１）前記割合値に応じた個数の層は、前記モデルの入力からの近さに基づいて決定される、
付記１記載の学習プログラム。

（付記１２）コンピュータが、
それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いて前記モデルの出力の誤差を算出し、前記誤差に基づいて前記複数の層それぞれの前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、
前記学習処理の第１のイテレーションの実行結果に基づいて、前記複数の層のうち前記パラメータの値の更新を抑止する候補を示す２以上の候補層を選択し、
前記第１のイテレーションまでのイテレーションの実行回数に基づいて、前記実行回数が多いほど大きい割合値を算出し、前記２以上の候補層のうち前記割合値に応じた個数の層に対して、前記第１のイテレーションより後の第２のイテレーションにおいて前記パラメータの値の更新を抑止することを決定する、
学習方法。

（付記１３）それぞれパラメータを含む複数の層を含むモデルと訓練データとを記憶する記憶部と、
前記訓練データを用いて前記モデルの出力の誤差を算出し、前記誤差に基づいて前記複数の層それぞれの前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、前記学習処理の第１のイテレーションの実行結果に基づいて、前記複数の層のうち前記パラメータの値の更新を抑止する候補を示す２以上の候補層を選択し、前記第１のイテレーションまでのイテレーションの実行回数に基づいて、前記実行回数が多いほど大きい割合値を算出し、前記２以上の候補層のうち前記割合値に応じた個数の層に対して、前記第１のイテレーションより後の第２のイテレーションにおいて前記パラメータの値の更新を抑止することを決定する処理部と、
を有する情報処理装置。

１０情報処理装置
１１記憶部
１２処理部
１３モデル
１３ａ，１３ｂ，１３ｃ層
１４ａ，１４ｂ，１４ｃパラメータ
１５訓練データ
１６学習処理
１６ａ，１６ｂイテレーション
１７割合値

Claims

コンピュータに、
それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いて前記モデルの出力の誤差を算出し、前記誤差に基づいて前記複数の層それぞれの前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、
前記学習処理の第１のイテレーションの実行結果に基づいて、前記複数の層のうち前記パラメータの値の更新を抑止する候補を示す２以上の候補層を選択し、
前記第１のイテレーションまでのイテレーションの実行回数に基づいて、前記実行回数が多いほど大きい割合値を算出し、前記２以上の候補層のうち前記割合値に応じた個数の層に対して、前記第１のイテレーションより後の第２のイテレーションにおいて前記パラメータの値の更新を抑止することを決定する、
処理を実行させる学習プログラム。
前記割合値に応じた個数は、候補層の個数に前記割合値を乗じて算出される、
請求項１記載の学習プログラム。
前記実行回数に対応する前記割合値は、シグモイド曲線に基づいて算出される、
請求項１記載の学習プログラム。
前記２以上の候補層のうち前記割合値に応じた個数の層以外の残りの層に対しては、前記第２のイテレーションにおいて前記パラメータの値の更新が実行される、
請求項１記載の学習プログラム。
前記学習処理は、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新することを含み、
前記２以上の候補層の選択では、前記複数の層それぞれに対してイテレーション間の前記誤差勾配の変化量を監視し、前記変化量が閾値未満の層を選択する、
請求項１記載の学習プログラム。
前記学習処理は、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新することを含み、
前記コンピュータに更に、前記複数の層それぞれに対して、前記第１のイテレーションまでのイテレーションにおける前記誤差勾配の平均を算出する処理を実行させ、
前記割合値に応じた個数の層は、前記誤差勾配の平均に基づいて決定される、
請求項１記載の学習プログラム。
前記学習処理は、前記パラメータに対する前記誤差の勾配を示す誤差勾配を算出し、前記誤差勾配に基づいて前記パラメータの値を更新することを含み、
前記コンピュータに更に、前記複数の層それぞれに対して、イテレーション間の前記誤差勾配の変化量を監視し、前記第１のイテレーションまでの前記変化量の平均を算出する処理を実行させ、
前記割合値に応じた個数の層は、前記変化量の平均に基づいて決定される、
請求項１記載の学習プログラム。
コンピュータが、
それぞれパラメータを含む複数の層を含むモデルを生成する学習処理であって、訓練データを用いて前記モデルの出力の誤差を算出し、前記誤差に基づいて前記複数の層それぞれの前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、
前記学習処理の第１のイテレーションの実行結果に基づいて、前記複数の層のうち前記パラメータの値の更新を抑止する候補を示す２以上の候補層を選択し、
前記第１のイテレーションまでのイテレーションの実行回数に基づいて、前記実行回数が多いほど大きい割合値を算出し、前記２以上の候補層のうち前記割合値に応じた個数の層に対して、前記第１のイテレーションより後の第２のイテレーションにおいて前記パラメータの値の更新を抑止することを決定する、
学習方法。
それぞれパラメータを含む複数の層を含むモデルと訓練データとを記憶する記憶部と、
前記訓練データを用いて前記モデルの出力の誤差を算出し、前記誤差に基づいて前記複数の層それぞれの前記パラメータの値を更新する、ことを反復的に実行する学習処理を開始し、前記学習処理の第１のイテレーションの実行結果に基づいて、前記複数の層のうち前記パラメータの値の更新を抑止する候補を示す２以上の候補層を選択し、前記第１のイテレーションまでのイテレーションの実行回数に基づいて、前記実行回数が多いほど大きい割合値を算出し、前記２以上の候補層のうち前記割合値に応じた個数の層に対して、前記第１のイテレーションより後の第２のイテレーションにおいて前記パラメータの値の更新を抑止することを決定する処理部と、
を有する情報処理装置。