JP2022088844A

JP2022088844A - 演算処理装置、演算処理方法および演算処理プログラム

Info

Publication number: JP2022088844A
Application number: JP2020200914A
Authority: JP
Inventors: 真弘三輪; Masahiro Miwa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-06-15
Also published as: CN114611657A; EP4009241A1; US20220180161A1

Abstract

【課題】学習を実行するプロセス数を減らした場合の学習の優位性を１回の集約処理により判定する。【解決手段】演算処理装置は、ディープニューラルネットワークの学習を実行可能な演算部を有する演算処理装置であって、複数のプロセスを前記演算部に割り当てて前記学習を並列に実行し、前記複数のプロセスのそれぞれによる学習により得られた、前記ディープニューラルネットワークで使用する複数の変数の更新にそれぞれ使用する複数の変数更新情報を、前記複数の変数毎に前記複数のプロセス間で集約する集約処理を実行し、前記集約処理中に、前記複数のプロセス間で集約された変数更新情報である第１変数更新情報と、集約途中の変数更新情報である第２変数更新情報とに基づいて、前記複数のプロセスのプロセス数より少ない所定数のプロセスによる学習の優位性を判定する。【選択図】図１３

Description

本発明は、演算処理装置、演算処理方法および演算処理プログラムに関する。

深層学習において、複数のプロセス（計算ノード）が学習データの異なる部分を使用して、ディープニューラルネットワークの学習を並列に実行する手法が知られている。ディープニューラルネットワークの学習を複数のプロセスで並列に実行する場合、バックワード処理とアップデート処理との間に、変数（ニューラルネットワークの重みの勾配情報）を複数のプロセス間で集約するオールリデュース等の集約処理が実行される（例えば、特許文献１－３参照）。

特開２０２０－０６８０１６号公報特開２０２０－０４６７１３号公報特開２０１９－１０９８７５号公報

ディープニューラルネットワークの学習では、画像等の認識精度が所定の精度以上になるまで学習が繰り返し実行される。認識精度が所定の精度以上になるまでの学習時間は、学習を実行するプロセス数（すなわち、並列数）が多くなると短縮されることがある。しかしながら、学習を実行するプロセス数を減らしても、学習時間をほとんど変えることなく、プロセス数を減らす前と同等の認識精度が得られる場合がある。少ないプロセス数でも同等の認識精度を達成できる場合、プロセスが使用するハードウェア資源（電力）を少なくすることができる。以降、少ないプロセス数でも同等の認識精度が得られることを学習の優位性があるという。プロセス数を減らせるか否かは、バックワード処理後、学習結果を集約するプロセス数が異なる場合の集約処理をそれぞれ実行し、集約結果を比較することで判定する。

１つの側面では、本発明は、学習を実行するプロセス数を減らした場合の学習の優位性を１回の集約処理により判定することを目的とする。

一つの観点によれば、演算処理装置は、ディープニューラルネットワークの学習を実行可能な演算部を有する演算処理装置であって、複数のプロセスを前記演算部に割り当てて前記学習を並列に実行し、前記複数のプロセスのそれぞれによる学習により得られた、前記ディープニューラルネットワークで使用する複数の変数の更新にそれぞれ使用する複数の変数更新情報を、前記複数の変数毎に前記複数のプロセス間で集約する集約処理を実行し、前記集約処理中に、前記複数のプロセス間で集約された変数更新情報である第１変数更新情報と、集約途中の変数更新情報である第２変数更新情報とに基づいて、前記複数のプロセスのプロセス数より少ない所定数のプロセスによる学習の優位性を判定する。

学習を実行するプロセス数を減らした場合の学習の優位性を１回の集約処理により判定することができる。

一実施形態における演算処理装置の一例を示すブロック図である。図１のサーバにより実行されるＤＮＮの学習の一例を示す説明図である。プロセス間通信の１つであるオールリデュース通信の概要を示す説明図である。図１のサーバによりＤＮＮの学習に使用するプロセス数を最適化する処理の一例を示す説明図である。ＤＮＮの学習において、プロセス数の相違による認識精度の違いの一例を示す説明図である。図１のサーバが図４のプロセス間通信としてリングオールリデュース通信を実行する例を示す説明図である。図６の続きを示す説明図である。図７の続きを示す説明図である。図８の続きを示す説明図である。図９の続きを示す説明図である。図１０の続きを示す説明図である。図１１の続きを示す説明図である。図１２の続きを示す説明図である。図１３の続きを示す説明図である。図１４の続きを示す説明図である。図１５の続きを示す説明図である。図１６の続きを示す説明図である。図１７の続きを示す説明図である。図１のサーバによるＤＮＮの学習の一例を示すフロー図である。

以下に図面を参照して、実施形態が説明される。

図１は、一実施形態における演算処理装置の一例を示す。この実施形態の演算処理装置は、例えば、サーバ１００である。サーバ１００は、プロセッサ２１０およびメモリ２２０が搭載されるアクセラレータボード２００と、ホストＣＰＵ（Central Processing Unit）３１０およびメモリ３２０が搭載されるホスト３００と、ストレージ４００とを有する。プロセッサ２１０とホスト３００のホストＣＰＵ３１０とは、例えば、ＰＣＩｅ（Peripheral Component Interconnect express）バス等の通信バスで相互に接続される。

図１では、サーバ１００は、２枚のアクセラレータボード２００を含むが、１枚または３枚以上のアクセラレータボード２００を含んでもよい。また、アクセラレータボード２００は、複数のプロセッサ２１０を含んでもよい。この場合、アクセラレータボード２００に搭載される複数のプロセッサ２１０は、同じ種類でもよく、異なる種類でもよい。

なお、アクセラレータボード２００またはプロセッサ２１０が単独でＤＮＮの学習を実行可能な場合、アクセラレータボード２００またはプロセッサ２１０を、本実施形態の演算処理装置として機能させてもよい。さらに、ＤＮＮの学習を複数のサーバ１００を含むクラスタにより実行する場合、クラスタを本実施形態の演算処理装置として機能させてもよい。

例えば、プロセッサ２１０は、ＧＰＵ（Graphics Processing Unit）、ＣＰＵまたはディープラーニング用の専用プロセッサである。プロセッサ２１０は、マトリックス状に配置された複数の処理部ＰＥ（Processing Element）を有する。例えば、各処理部ＰＥは、積和演算器等の演算器およびレジスタ等を有する。各処理部ＰＥに搭載される演算器は、浮動小数点演算器でもよく、固定小数点演算器でもよい。プロセッサ２１０は、ニューラルネットワークの学習を実行可能な演算部の一例である。

メモリ２２０は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）等のメインメモリであり、各処理部ＰＥがディープニューラルネットワークの学習で使用するデータ（ＤＮＮの各レイヤの入力データ、重み等の変数、出力データ等）が格納される。

ホストＣＰＵ３１０は、プロセッサ２１０を制御して、プロセッサ２１０にＤＮＮの学習を実行させる。例えば、ホストＣＰＵ３１０は、ＤＲＡＭ等のメインメモリであるメモリ３２０に展開された演算処理プログラムを実行することで、プロセッサ２１０にＤＮＮの学習を実行させる。ホストＣＰＵ３１０は、階層的に設けられたメモリ３２０とストレージ４００とに接続される。例えば、ストレージ４００は、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）の少なくともいずれかを含む。そして、ホストＣＰＵ３１０は、ＤＮＮの学習において、ストレージ４００に格納された学習データ４１０を使用して、プロセッサ２１０に学習を実行させる。

図２は、図１のサーバ１００により実行されるＤＮＮの学習の一例を示す。図２の上側は、本実施形態による学習の流れを示し、図２の下側は、他の手法による学習の流れ（比較例）を示す。サーバ１００は、ＤＮＮの学習を実行するタスクをｎ－１個のプロセスＰ（Ｐ０、Ｐ１、Ｐ２、...、Ｐｎ）を使用して並列に実行する。各プロセスＰは、異なるデータを使用して共通のＤＮＮの学習を実行する。なお、この実施形態では、説明を分かりやすくするため、サーバ１００が４個のプロセスＰを並列に実行する例を示すが、プロセスＰの並列数は、４個に限定されない。なお、サーバ１００が実行するＤＮＮの学習に使用する各種計算は、サーバ１００からの指示に基づいてプロセッサ２１０により実行される。

サーバ１００は、フォワード処理ＦＷＤ、バックワード処理ＢＷＤ、プロセス間通信ＣＯＭＭおよびアップデート処理ＵＰを繰り返すことでＤＮＮの学習を実行する。サーバ１００は、プロセスＰ毎のフォワード処理ＦＷＤにおいて、ＤＮＮに入力されたデータと重みとの演算を、入力側のレイヤから順に実行し、出力データを得る。サーバ１００は、プロセスＰ毎に、出力データと正解データとの差である誤差（損失関数）を算出する。

サーバ１００は、プロセスＰ毎のバックワード処理ＢＷＤにおいて、誤差が小さくなる重みを得るための重み勾配データ（ニューラルネットワークの重みパラメータに関する損失関数の勾配）を算出する。次に、サーバ１００は、プロセス間通信ＣＯＭＭにおいて、各プロセスＰにより算出された重み勾配データを全てのプロセスＰで共有し、全てのプロセスＰに重み勾配データの平均を取得する。例えば、プロセス間通信ＣＯＭＭとして、リングオールリデュース通信が使用される。プロセス間通信ＣＯＭＭおよびリングオールリデュース通信は、重み勾配データを集約する集約処理の一例である。

そして、サーバ１００は、プロセスＰ毎のアップデート処理ＵＰにおいて、プロセスＰ間で平均化された重み勾配データを使用して重みを更新する。更新された重みは、次の学習において全てのプロセスＰで共通に使用される。サーバ１００は、更新した重みを使用して、次の学習（フォワード処理ＦＷＤ、バックワード処理ＢＷＤ、プロセス間通信ＣＯＭＭおよびアップデート処理ＵＰ）を繰り返し実行する。サーバ１００は、損失関数の減少によりＤＮＮによる認識精度が所定以上に向上した場合、または、所定のエポック数の学習を実行した場合、ＤＮＮの学習を終了する。

図２の上側では、３通りの異なるプロセス数（Ｐ０－Ｐ３の４プロセス、Ｐ０－Ｐ２の３プロセス、Ｐ０－Ｐ１の２プロセス）の重み勾配データの平均が、１回のプロセス間通信ＣＯＭＭにより算出される。３通りの異なるプロセス数（Ｐ０－Ｐ３の４プロセス、Ｐ０－Ｐ２の３プロセス、Ｐ０－Ｐ１の２プロセス）の重み勾配データの平均を１回のプロセス間通信ＣＯＭＭにより算出する例は、図６から図１４で説明される。図２の下側の比較例では、３通りのプロセス数（Ｐ０－Ｐ３の４プロセス、Ｐ０－Ｐ２の３プロセス、Ｐ０－Ｐ１の２プロセス）の重み勾配データの平均が、３回のプロセス間通信ＣＯＭＭによりそれぞれ算出される。

サーバ１００は、プロセスＰ３またはプロセスＰ２－Ｐ３による学習を省略した場合でも、所定のエポック数で認識精度を規定の精度以上に向上できると判断した場合、プロセスＰの数を減らして、以降の学習を継続する。学習を実行するプロセス数を少なくすることで、以降の学習で使用するプロセッサ２１０、アクセラレータボード２００またはサーバ１００の数を削減することができ、ハードウェア資源を削減しつつ、電力を削減することができる。

この実施形態では、１回のプロセス間通信ＣＯＭＭにより、複数通りのプロセス数の重み勾配データの平均を算出できるため、図２の下側の比較例に比べて、学習時間を短縮することができ、学習効率を向上することができる。換言すれば、学習を実行させるプロセス数を減らした場合の学習の優位性を１回の集約処理により判定することができる。

図３は、プロセス間通信ＣＯＭＭの１つであるオールリデュース通信の概要を示す。図３では、４つのプロセスＰ０－Ｐ３間で、配列中の２つ要素（ｉ＝０、１）の和を算出するオールリデュース通信の例が示される。オールリデュース通信で集約するときの演算として、ＳＵＭ（和）の他に、ＭＡＸ（最大）およびＭＩＮ（最小）がある。

オールリデュース通信では、各プロセスＰは、４つのプロセスＰ０－Ｐ３の各要素ｉの値を足し込むことで和を算出する。図３に示す例では、オールリデュース通信による足し込みにより、各プロセスＰが保持する要素ｉ＝０、１の値は、それぞれ"１３"、"１４"になる。また、各要素ｉ＝０、１の値がプロセス数で除算されることで、平均値が算出可能である。以下では、オールリデュース通信は、単にオールリデュースとも称される。

図４は、図１のサーバ１００によりＤＮＮの学習に使用するプロセス数を最適化する処理の一例を示す説明図である。図２の上側の処理と同様の処理については、詳細な説明は省略する。図４において、符号ｗｇ（weight gradient）は、プロセスＰ毎にバックワード処理ＢＷＤで算出されたの重み勾配データを示し、符号ｗｇの末尾の数値は、プロセスＰを識別するプロセス番号を示す。重み勾配データは、変数更新情報の一例である。

符号ｗｇ_{ｉｄｅａｌ}は、プロセス数を削減しない４つのプロセスＰ０－Ｐ３の理想的な重み勾配データの平均を示す（全てのプロセス数の学習結果を使用する場合を理想とする）。符号ｗｇ_{ｔｍｐ＿１}は、プロセス数を１つ削減した３つのプロセスＰ０、Ｐ１、Ｐ２の重み勾配データの平均を示す。符号ｗｇ_{ｔｍｐ＿２}は、プロセス数を２つ削減した２つのプロセスＰ０、Ｐ１の重み勾配データの平均を示す。

サーバ１００は、１回のプロセス間通信ＣＯＭＭで算出した３種類の重み勾配データのそれぞれの平均を使用して、重み勾配データの理想値ｗｇ_{ｉｄｅａｌ}からの違い（理想のベクトルからの差のノルムΔ１、Δ２）を算出する。プロセス数を１つ削減した場合の差のノルムΔ１は、ｎｏｒｍ（ｗｇ_{ｉｄｅａｌ}－ｗｇ_{ｔｍｐ＿１}）である。プロセス数を２つ削減した場合の差のノルムΔ２は、ｎｏｒｍ（ｗｇ_{ｉｄｅａｌ}－ｗｇ_{ｔｍｐ＿２}）である。

サーバ１００は、差のノルムΔ１、Δ２のそれぞれが所定の閾値以下（例えば、２０％以内）であるかを判定する。この例では、差のノルムΔ１は、所定の閾値より小さく、差のノルムΔ２は、所定の閾値より大きい。このため、サーバ１００は、以降の学習において、例えば、プロセスＰ３を除いた３つのプロセスＰ０－Ｐ２を使用して、学習を継続することを決定する。

そして、サーバ１００は、プロセスＰ０－Ｐ２のリングオールリデュースにより平均化された重み勾配データの平均ｗｇ_{ｔｍｐ＿１}を使用したアップデート処理ＵＰにより、重みの更新値を算出し、算出した重みの更新値を各プロセスＰ０－Ｐ２に反映する。そして、サーバ１００は、プロセスＰ０－Ｐ２を使用して、学習を継続する。

図５は、ＤＮＮの学習において、プロセス数の相違による認識精度の違いの一例を示す。図５は、例えば、３２個のＧＰＵに３２個のプロセスを割り当て、ディープニューラルネットワークの一種であるＲｅｓＮｅｔ－５０と、標準データセットであるＩｍａｇｅＮｅｔとを使用して学習を実行する例が示される。エポック数は、学習の反復回数であり、エポック数が少ないほど学習時間が短いことを示す。

プロセスを取り除くことなく学習を実行したときの認識精度は、８６エポックで７５．９１％である。ここで、目標の認識精度は、例えば、７５．９％以上である。目標の認識精度を達成した学習は、取り除くプロセス数が１個、２個、４個、８個の場合である。１６個のプロセスを取り除いた場合、９０エポックの学習を実行しても認識精度は７５．６９％である。図５より、８個のプロセスを取り除き、２４個のプロセスで学習を実行することで、学習時間を増加させることなく、所定の認識精度が得られることが分かる。

図６から図１８は、図１のサーバ１００が図４のプロセス間通信ＣＯＭＭとしてリングオールリデュース通信を実行する例を示す。サーバ１００は、図６から図１８に示すリングオールリデュース通信による集約結果に基づいて、プロセスＰ０－Ｐ３の数が削減可能か否かを判定する。以下では、リングオールリデュース通信は、単にリングオールリデュースとも称される。図６から図１８に示す各ステップは、リングオールリデュース通信によるプロセス間でのデータの転送を示し、ステップの総数は、リングオールリデュース通信のコストを示す。

図６から図１８において、白抜きの矢印は、データが転送される方向を示す。この例においても、図４に示したように、４個のプロセスＰ０－Ｐ３を使用して、フォワード処理およびバックワード処理が並列に実行される。リングオールリデュースは、サーバ１００のホストＣＰＵ３１０が演算処理プログラムを実行することで実現されるが、以下では、プロセスＰ０－Ｐ３の動作として説明される。

例えば、各プロセスＰ０－Ｐ３は、１次元のデータ（要素）を保持する４個の領域ＰＲ（ＰＲｎ０－ＰＲｎ３；ｎはプロセス番号）と、バッファＢＵＦと、フラグ領域ＰＧ２、ＰＧ３とを有する。各プロセスＰ０－Ｐ３に設けられる領域ＰＲの数は、４個に限定されないが、リングオールリデュース処理を効率的に実行するために、プロセス数の整数倍であることが好ましい。

各プロセスＰ０－Ｐ３の４つの領域ＰＲｎ０－ＰＲｎ３、バッファＢＵＦおよびフラグ領域ＰＧ２、ＰＧ３は、例えば、図１のメモリ２２０または図１のプロセッサ２１０内の内部メモリに割り当てられる。なお、バッファＢＵＦおよびフラグ領域ＰＧ２、ＰＧ３は、図１のプロセッサ２１０内のレジスタに割り当てられてもよい。

図６は、バックワード処理ＢＷＤにより重み勾配データが算出された後、リングオールリデュースが開始される前の初期状態を示している。プロセスＰ０の４つの領域ＰＲ００－ＰＲ０３は、プロセスＰ０のバックワード処理ＢＷＤにより算出された４個の重み勾配データＰ００、Ｐ０１、Ｐ０２、Ｐ０３をそれぞれ保持する。プロセスＰ１の４つの領域ＰＲ１０－ＰＲ１３は、プロセスＰ１のバックワード処理ＢＷＤにより算出された４個の重み勾配データＰ１０、Ｐ１１、Ｐ１２、Ｐ１３をそれぞれ保持する。

プロセスＰ２の４つの領域ＰＲ２０－ＰＲ２３は、プロセスＰ２のバックワード処理ＢＷＤにより算出された４個の重み勾配データＰ２０、Ｐ２１、Ｐ２２、Ｐ２３をそれぞれ保持する。プロセスＰ３の４つの領域ＰＲ３０－ＰＲ３３は、プロセスＰ３のバックワード処理ＢＷＤにより算出された４個の重み勾配データＰ３０、Ｐ３１、Ｐ３２、Ｐ３３をそれぞれ保持する。

各プロセスＰ０－Ｐ３は、図７から図１４において、バックワード処理ＢＷＤにより４つの領域ＰＲｎ０－ＰＲｎ３に保持した重み勾配データを順次集約する。また、各プロセスＰ０－Ｐ３は、重み勾配データの集約中に、プロセス数を２個または３個にしたときの重み勾配データの理想値からの差のノルムが所定の閾値以下かどうかの判定結果をフラグ領域ＰＧ２、ＰＧ３に設定する。

フラグ領域ＰＧ２は、プロセス数が２個に設定されたときの重み勾配データの理想値からの差のノルムが閾値以下の場合、"Ｔｒｕｅ"に設定され、閾値を超える場合、"Ｆａｌｓｅ"に設定される。フラグ領域ＰＧ３は、プロセス数が３個に設定されたときの重み勾配データの理想値からの差のノルムが閾値以下の場合、"Ｔｒｕｅ"に設定され、閾値を超える場合、"Ｆａｌｓｅ"に設定される。例えば、"Ｔｒｕｅ"は、論理値１を示し、"Ｆａｌｓｅ"は、論理値０を示す。フラグ領域ＰＧ２、ＰＧ３は、初期状態で"－１"（例えば、１６進数の連続するＦ）に設定される。

図７から図１４において、破線の矢印は、データの転送経路を示し、太枠の領域ＰＲは、重み勾配データが更新されたことを示す。また、各プロセスは、各ステップで隣のプロセスに送信する。隣のプロセスとは、自身のプロセス番号であるｊに1を加えた番号を持つプロセスである。このとき、jに1を加えたプロセス番号が"プロセス数－１"を超える場合、"（ｊ＋１）％（プロセス数－１）"とする（％は剰余計算を表す）。具体的に、Ｐ０はＰ１に送信し、Ｐ１はＰ２に送信し、Ｐ２はＰ３に送信し、Ｐ３はＰ０に送信する。反対に、Ｐ１はＰ０より受信し、Ｐ２はＰ１より受信し、Ｐ３はＰ２より受信し、Ｐ０はＰ３より受信する。送受信の相手となるプロセスは以降のステップで共通である。

図７において、各プロセスＰ０－Ｐ３は、重み勾配データのリングオールリデュースの最初のステップであるステップ１を実行する。各プロセスＰｊ（ｊはプロセス番号）は、末尾の数値が"ｊ－（現在のステップ番号）＋１"の領域ＰＲに保持された重み勾配データを隣のプロセスに送信する。ステップ１では、末尾の数値が"ｊ－１＋１"すなわち、"ｊ"の領域ＰＲに保持された重み勾配データを送信する。具体的に、Ｐ０は、ｊの値が０となるので、ＰＲ００のデータを送信する。Ｐ１は、ｊの値が１となるので、ＰＲ０１のデータを送信する。Ｐ２は、ｊの値が２となるので、ＰＲ０２のデータを送信する。Ｐ３は、ｊの値が３となるので、ＰＲ０３のデータを送信する。

そして、各プロセスは受信した重み勾配データをバッファＢＵＦに格納する。そして、各プロセスは、バッファに格納した重み勾配データを末尾の番号が"ｊ－（現在のステップ番号）"の領域ＰＲに保持されている重み勾配データに足し込む。ステップ１では、"ｊ－１"となる。ここで、"ｊ－１"が負の値となる場合、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－１"の値が－１となるので、プロセス数である４を足して、３が得られる。そこで、Ｐ０は末尾の番号が３の領域ＰＲ０３に足し込む。Ｐ１は、"ｊ－１"の値が０となるので、末尾の番号が０の領域ＰＲ１０に足し込む。Ｐ２は、"ｊ－１"の値が１となるので、ＰＲ２１に足し込む。Ｐ３は、"ｊ－１"の値が２となるので、ＰＲ３２に足し込む。

次に、図８において、各プロセスＰ０－Ｐ３は、重み勾配データのリングオールリデュースの２番目の転送であるステップ２を実行する。各プロセスＰｊは、末尾の数値が"ｊ＋（現在のステップ番号）－１"の領域ＰＲに保持されている重み勾配データを隣のプロセスに送信する。ステップ２では、末尾の番号が"ｊ－２＋１"、すなわち、"ｊ－１"の領域ＰＲに保持されている重み勾配データを送信する。ここで、"ｊ－１"が負の値となる場合は、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－１"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ０３のデータを送信する。Ｐ１は、"ｊ－１"が０となるので、ＰＲ１０のデータを送信する。Ｐ２は、"ｊ－１"が１となるので、ＰＲ２１のデータを送信する。Ｐ３は、"ｊ－１"が２となるので、ＰＲ３２のデータを送信する。

そして、各プロセスＰｊは、隣のプロセスから受信した重み勾配データをバッファＢＵＦに格納する。そして、各プロセスＰｊは、バッファＢＵＦに格納した重み勾配データを、末尾の番号が"ｊ－（ステップ番号）"の領域ＰＲに保持されている重み勾配データに足し込む。ステップ２では、"ｊ－２"となる。ここで、"ｊ－２"が負の値となる場合、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－２"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ０２に足し込む。Ｐ１は、"ｊ－２"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ１３に足し込む。Ｐ２は、"ｊ－２"が０となるので、ＰＲ２０に足し込む。Ｐ３は、"ｊ－２"が１となるので、ＰＲ３１に足し込む。

次に、図９において、各プロセスＰ０－Ｐ３は、重み勾配データのリングオールリデュースの３番目の転送であるステップ３を実行する。各プロセスＰｊは、末尾の数値が"ｊ＋（現在のステップ番号）－１"の領域ＰＲに保持されている重み勾配データを隣のプロセスに送信する。ステップ３では、末尾の番号が"ｊ－３＋１"、すなわち、"ｊ－２"の重み勾配データを送信する。ここで、"ｊ－２"が負の値となる場合は、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－２"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、プロセス０はＰＲ０２のデータを送信する。Ｐ１は、"ｊ－２"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ１３のデータを送信する。Ｐ２は、"ｊ－２"が０となるので、ＰＲ２０のデータを送信する。Ｐ３は、"ｊ－２"が１となるので、ＰＲ３１のデータを送信する。

そして、各プロセスＰｊは、隣のプロセスから受信した重み勾配データをバッファＢＵＦに格納する。そして、各プロセスＰｊは、バッファＢＵＦに格納した重み勾配データを、末尾の番号が"ｊ－（ステップ番号）"の領域ＰＲに保持されている重み勾配データに足し込む。ステップ３では、"ｊ－３"となる。ここで、"ｊ－３"が負の値となる場合、正の値となるまでプロセス数の値を足す。具体的には、Ｐ０は、"ｊ－３"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ０１に足し込む。Ｐ１は、"ｊ－３"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ１２に足し込む。Ｐ２は、"ｊ－３"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ２３に足し込む。Ｐ３は、"ｊ－３"が０となるので、ＰＲ３０に足し込む。

ステップ３が完了した時点で、各プロセスＰｊの４個の領域ＰＲのうち、各プロセスＰｊがステップ３で足し込んだ領域ＰＲは、プロセスＰ０－Ｐ３の重み勾配データの集約が完了する。集約により足し込まれたＰ００＋Ｐ１０＋Ｐ２０＋Ｐ３０、Ｐ０１＋Ｐ１１＋Ｐ２１＋Ｐ３１、Ｐ０２＋Ｐ１２＋Ｐ２２＋Ｐ３２、Ｐ０３＋Ｐ１３＋Ｐ２３＋Ｐ３３は、プロセスＰ０－Ｐ３間で集約された第１変数更新情報の一例である。

次に、図１０において、各プロセスＰ０－Ｐ３は、重み勾配データのリングオールリデュースの４番目の転送であるステップ４を実行する。ステップ４、ステップ５およびステップ６では、ステップ３で集約が完了した重み勾配データの転送が実行される。
各プロセスＰｊは、末尾の数値が"ｊ＋（現在のステップ番号）－１"の領域ＰＲに保持されている重み勾配データを隣のプロセスに送信する。ステップ４では、末尾の番号が"ｊ－４＋１"、すなわち、"ｊ－３"の重み勾配データを送信する。ここで、"ｊ－３"が負の値となる場合は、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－３"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ０１のデータを送信する。Ｐ１は、"ｊ－３"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ１２のデータを送信する。Ｐ２は、"ｊ－３"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ２３を送信する。Ｐ３は、"ｊ－３"が０となるので、ＰＲ３０を送信する。

そして、各プロセスＰｊは、隣のプロセスから受信した重み勾配データをバッファＢＵＦに格納する。そして、各プロセスＰｊは、バッファＢＵＦに格納した重み勾配データを、末尾の番号が"ｊ－（ステップ番号）"の領域ＰＲに保持されている重み勾配データに上書きする。ステップ４では、"ｊ－４"となる。ここで、"ｊ－４"が負の値となる場合、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－４"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ００に上書きする。Ｐ１は、"ｊ－４"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ１１に上書きする。Ｐ２は、"ｊ－４"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ２２に上書きする。Ｐ３は、"ｊ－４"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ３３に上書きする。

次に、図１１および図１２において、各プロセスＰ０－Ｐ３は、重み勾配データのリングオールリデュースの５番目の転送であるステップ５を実行する。図１１に示すステップ５（１）において、各プロセスＰｊは、末尾の数値が"ｊ＋（現在のステップ番号）－１"の領域ＰＲに保持されている重み勾配データを隣のプロセスに送信する。ステップ５では、末尾の番号が"ｊ－５＋１"、すなわち、"ｊ－４"の重み勾配データを送信する。ここで、"ｊ－４"が負の値となる場合は、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－４"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ０のデータを送信する。Ｐ１は、"ｊ－４"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ１１のデータを送信する。Ｐ２は、"ｊ－４"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ２２を送信する。Ｐ３は、"ｊ－４"が－１となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ３３を送信する。

そして、各プロセスＰｊは、隣のプロセスから受信した集約された重み勾配データをバッファＢＵＦに格納する。各プロセスＰｊは、バッファＢＵＦに保持された４個のプロセスＰの重み勾配データの平均と、末尾の数値が"ｊ－（ステップ番号）"の領域ＰＲに保持された２個のプロセスＰの重み勾配データの平均とを比較する。ステップ５では、"ｊ－５"の領域ＰＲが対象となる。ここで、"ｊ－５"が負の値となる場合は、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－５"が－５となるので、プロセス数の値である４を正の値になるまで繰り返し足すことで、３が得られる。したがって、ＰＲ０３がＢＵＦと比較対象となる領域である。Ｐ１は、"ｊ－５"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ１０がＢＵＦと比較対象となる領域である。Ｐ２は、"ｊ－５"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ２１がＢＵＦと比較対象となる領域である。Ｐ３は、"ｊ－５"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ３２がＢＵＦと比較対象となる領域である。各プロセスにおける末尾の数字が"ｊ－５"の領域ＰＲに保持された２個のプロセスＰの重み勾配データ（Ｐ００＋Ｐ１０、Ｐ１１＋Ｐ２１、Ｐ２２＋Ｐ３２、Ｐ０３＋Ｐ３３）は、集約途中の第２変数更新情報の一例である。

例えば、各プロセスＰｊは、４個のプロセスＰの重み勾配データの平均と、２個のプロセスＰの重み勾配データの平均とを使用して、図４に示した差のノルムΔ２を算出する。そして、各プロセスＰｊは、差のノルムΔ２が閾値以下の場合、フラグ領域ＰＧ２にフラグ"Ｔｒｕｅ"（論理値１）を設定する。各プロセスＰｊは、差のノルムΔ２が閾値を超える場合、フラグ領域ＰＧ２にフラグ"Ｆａｌｓｅ"（論理値０）を設定する。

図１１に示す例では、プロセスＰ１のフラグ領域ＰＧ２のみが"Ｔｒｕｅ"に設定される。図１１において、太枠のフラグ領域ＰＧ２は、フラグ"Ｔｒｕｅ"またはフラグ"Ｆａｌｓｅ"のいずれかが設定されたことを示す。フラグ領域ＰＧ２のフラグ"Ｔｒｕｅ"は、２個のプロセスＰによる認識精度が、４個のプロセスＰによる認識精度と同等程度と判定したことを示す。フラグ領域ＰＧ２のフラグ"Ｆａｌｓｅ"は、２個のプロセスＰによる認識精度が、４個のプロセスＰによる認識精度未満と判定したことを示す。

図１１に示すように、この実施形態では、重み勾配データのリングオールリデュース中に、集約が完了した重み勾配データと集約途中の重み勾配データとを比較することで、プロセスＰ毎に、学習の優位性を判定することができる。そして、判定した学習の優位性を示す情報をフラグとしてフラグ領域ＰＧ２に保持することで、図１５から図１８に示す判定結果を集約するリングオールリデュースを実行することができる。

次に、図１２のステップ５（２）において、各プロセスＰｊは、バッファＢＵＦに格納した重み勾配データを、末尾の番号が"ｊ－（ステップ番号）"の領域ＰＲに保持されている重み勾配データに上書きする。ステップ５では、"ｊ－５"となる。ここで、"ｊ－５"が負の値となる場合、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－５"が－５となるので、プロセス数の値である４を正の値になるまで繰り返し足すことで、３が得られる。したがって、ＰＲ０３に上書きする。Ｐ１は、"ｊ－５"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ１０に上書きする。Ｐ２は、"ｊ－５"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ２１に上書きする。Ｐ３は、"ｊ－５"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ３２に上書きする。

次に、図１３および図１４において、各プロセスＰ０－Ｐ３は、重み勾配データのリングオールリデュースの６番目の転送であるステップ６を実行する。図１３に示すステップ６（１）において、各プロセスＰｊは、末尾の数値が"ｊ＋（現在のステップ番号）－１"の領域ＰＲに保持されている重み勾配データを隣のプロセスに送信する。ステップ６では、末尾の番号が"ｊ－６＋１"、すなわち、"ｊ－５"の重み勾配データを送信する。ここで、"ｊ－５"が負の値となる場合は、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－５"が－５となるので、プロセス数の値である４を正の値になるまで繰り返し足すことで、３が得られる。したがって、ＰＲ０３のデータを送信する。Ｐ１は、"ｊ－５"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ１０のデータを送信する。Ｐ２は、"ｊ－５"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ２１を送信する。Ｐ３は、"ｊ－５"が－２となるので、プロセス数の値である４を足し、２が得られる。したがって、ＰＲ３２を送信する。

そして、各プロセスＰｊは、隣のプロセスから受信した集約された重み勾配データをバッファＢＵＦに格納する。各プロセスＰｊは、バッファＢＵＦに保持された４個のプロセスＰの重み勾配データの平均と、末尾の数値が"ｊ－（ステップ番号）"の領域ＰＲに保持された３個のプロセスＰの重み勾配データの平均とを比較する。具体的に、Ｐ０は、"ｊ－６"が－６となるので、プロセス数の値である４を正の値になるまで繰り返し足すことで、２が得られる。したがって、ＰＲ０２がＢＵＦと比較対象となる領域である。Ｐ１は、"ｊ－６"が－５となるので、プロセス数の値である４を足し、３が得られる。したがって、ＰＲ１３がＢＵＦと比較対象となる領域である。Ｐ２は、"ｊ－６"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ２０がＢＵＦと比較対象となる領域である。Ｐ３は、"ｊ－６"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ３１がＢＵＦと比較対象となる領域である。各プロセスにおける末尾の数字が"ｊ－６"の領域ＰＲに保持された３個のプロセスＰの重み勾配データ"Ｐ００＋Ｐ１０＋Ｐ２０、Ｐ１１＋Ｐ２１＋Ｐ３１、Ｐ０２＋Ｐ２２＋Ｐ３２、Ｐ０３＋Ｐ１３＋Ｐ３３"は、集約途中の第２変数更新情報の一例である。

例えば、各プロセスＰｊは、４個のプロセスＰの重み勾配データの平均と、３個のプロセスＰの重み勾配データの平均とを使用して、図４に示した差のノルムΔ１を算出する。そして、各プロセスＰｊは、差のノルムΔ１が閾値以下の場合、フラグ領域ＰＧ３にフラグ"Ｔｒｕｅ"（論理値１）を設定する。各プロセスＰｊは、差のノルムΔ１が閾値を超える場合、フラグ領域ＰＧ３にフラグ"Ｆａｌｓｅ"（論理値０）を設定する。

図１３に示す例では、全てのプロセスＰ０－Ｐ３のフラグ領域ＰＧ３が"Ｔｒｕｅ"に設定される。図１３において、太枠のフラグ領域ＰＧ３は、フラグ"Ｔｒｕｅ"またはフラグ"Ｆａｌｓｅ"のいずれかが設定されたことを示す。フラグ領域ＰＧ３のフラグ"Ｔｒｕｅ"は、３個のプロセスＰによる認識精度が、４個のプロセスＰによる認識精度と同等程度と判定したことを示す。フラグ領域ＰＧ３のフラグ"Ｆａｌｓｅ"は、３個のプロセスＰによる認識精度が、４個のプロセスＰによる認識精度未満と判定したことを示す。

図１３においても、重み勾配データのリングオールリデュース中に、集約が完了した重み勾配データと集約途中の重み勾配データとを比較することで、プロセスＰ毎に、学習の優位性を判定することができる。そして、判定した学習の優位性を示す情報をフラグとしてフラグ領域ＰＧ３に保持することで、図１５から図１８に示す優位性の判定結果を集約するリングオールリデュースを実行することができる。

次に、図１４のステップ６（２）において、各プロセスＰｊは、バッファＢＵＦに格納した重み勾配データを、末尾の番号が"ｊ－（ステップ番号）"の領域ＰＲに保持されている重み勾配データに上書きする。ステップ６では、"ｊ－６"となる。ここで、"ｊ－６"が負の値となる場合、正の値となるまでプロセス数の値を足す。具体的に、Ｐ０は、"ｊ－６"が－６となるので、プロセス数の値である４を正の値になるまで繰り返し足すことで、２が得られる。したがって、ＰＲ０２に上書きする。Ｐ１は、"ｊ－６"が－５となるので、プロセス数の値である４を正の値になるまで繰り返し足すことで、３が得られる。したがって、ＰＲ１３に上書きする。Ｐ２は、"ｊ－６"が－４となるので、プロセス数の値である４を足し、０が得られる。したがって、ＰＲ２０に上書きする。Ｐ３は、"ｊ－６"が－３となるので、プロセス数の値である４を足し、１が得られる。したがって、ＰＲ３１に上書きする。

以上により、各プロセスＰ０－Ｐ３において、集約された重み勾配データの平均が全ての領域ＰＲに保持されるとともに、フラグ"Ｔｒｕｅ"またはフラグ"Ｆａｌｓｅ"のいずれかがフラグ領域ＰＧ２、ＰＧ３にそれぞれ設定される。但し、フラグ領域ＰＧ２、ＰＧ３に設定されたフラグ"Ｔｒｕｅ"またはフラグ"Ｆａｌｓｅ"は、各プロセスＰ０－Ｐ３で計算された値である。このため、図１５から図１８に示すように、プロセスＰ０－Ｐ３間でフラグを集約するリングオールリデュース処理が実行される。

ここで、全てのプロセスＰ０－Ｐ３のフラグ領域ＰＧ２に"Ｔｒｕｅ"が設定されている場合、プロセスＰ０－Ｐ３間で"Ｔｒｕｅ"の合意が取得される。合意の取得は、後続の学習を２つのプロセスＰを使用して実行する場合にも、所定のエポック数で所定以上の認識精度を得ることが可能であると判定したことを示す。一方、プロセスＰ０－Ｐ３のフラグ領域ＰＧ２の少なくともいずれかに"Ｆａｌｓｅ"が設定されている場合、プロセスＰ０－Ｐ３間で"Ｔｒｕｅ"の合意が取得されず、２つのプロセスＰを使用した後続の学習では、所定以上の認識精度を得ることができないと判定したことを示す。

同様に、全てのプロセスＰ０－Ｐ３のフラグ領域ＰＧ３に"Ｔｒｕｅ"が設定されている場合、プロセスＰ０－Ｐ３間で"Ｔｒｕｅ"の合意が取得される。合意の取得は、後続の学習を３つのプロセスＰを使用して実行する場合にも、所定のエポック数で所定以上の認識精度を得ることが可能であると判定したことを示す。

プロセスＰ０－Ｐ３のフラグ領域ＰＧ２、ＰＧ３のそれぞれが、全て"Ｔｒｕｅ"であるか否かを判定するために、フラグ領域ＰＧ２、ＰＧ３に対するリングオールリデュースでは、ＭＩＮ（最小）が判定される。これにより、例えば、全てのフラグ領域ＰＧ２が"Ｔｒｕｅ"（論理値１）である場合のみ、リングオールリデュースの結果である最小値を"１"にすることができ、最小値に基づいて"Ｔｒｕｅ"の合意を取得することができる。すなわち、フラグのリングオールリデュースにより、最小値を求める論理演算を実行することで、プロセスＰ０－Ｐ３の全てで"Ｔｒｕｅ"となる結果がＰＧ３であることが分かる。

図１５から図１８は、フラグ領域ＰＧ２、ＰＧ３のみの状態の遷移が示される。図１５から図１８において、各フラグ領域ＰＧ２、ＰＧ３の破線の上の領域は、説明のための領域であり、フラグ領域ＰＧ２、ＰＧ３に格納される情報を示すものではない。各フラグ領域ＰＧ２、ＰＧ３の破線の下の領域は、フラグのリングオールリデュースによるＭＩＮ（最小）の判定結果を示し、図１１から図１４と同様に、フラグ領域ＰＧ２、ＰＧ３に格納される情報である。

各フラグ領域ＰＧ２、ＰＧ３の破線の上の領域は、図１１および図１３で取得されたフラグの状態を示し、末尾の"Ｆ"は"Ｆａｌｓｅ"を示し、末尾の"Ｔ"は、"Ｔｒｕｅ"を示す。先頭の"Ｐｘ"（ｘは、０－３のいずれか）は、フラグを生成したプロセスを示す。"Ｐｘ"の後の"ＰＧ２"または"ＰＧ３"は、フラグ領域を示す。

図１５の左側は、フラグのリングオールリデュースが実行されるフラグステップの開始前の初期状態を示し、図１４のステップ６の終了時のフラグ領域ＰＧ２、ＰＧ３の状態を示す。図１５の右側のフラグステップ１において、プロセスＰ０は、フラグ領域ＰＧ２のフラグ"Ｐ０ＰＧ２Ｆ"（Ｆａｌｓｅ）をプロセスＰ１に転送する。プロセスＰ１は、フラグ領域ＰＧ２に保持されているフラグ"Ｐ１ＰＧ２Ｔ"と、受信したフラグ"Ｐ０ＰＧ２Ｆ"とのＭＩＮ判定を実行し、フラグを"Ｔｒｕｅ"から"Ｆａｌｓｅ"に変更する。

プロセスＰ１は、フラグ領域ＰＧ３のフラグ"Ｐ１ＰＧ３Ｔ"（Ｔｒｕｅ）をプロセスＰ２に転送する。プロセスＰ２は、フラグ領域ＰＧ３に保持されているフラグ"Ｐ２ＰＧ３Ｔ"と、受信したフラグ"Ｐ１ＰＧ３Ｔ"とのＭＩＮ判定を実行し、フラグの"Ｔｒｕｅ"を維持する。図１５から図１８において、太枠のフラグ領域ＰＧ２、ＰＧ３は、フラグのＭＩＮ判定が実行されたことを示す。

次に、図１６の左側のフラグステップ２において、プロセスＰ１は、フラグ領域ＰＧ２のフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ"（Ｆａｌｓｅ）をプロセスＰ２に転送する。プロセスＰ２は、フラグ領域ＰＧ２に保持されているフラグ"Ｐ２ＰＧ２Ｆ"と、受信したフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ"とのＭＩＮ判定を実行し、フラグの"Ｆａｌｓｅ"を維持する。

プロセスＰ２は、フラグ領域ＰＧ３のフラグ"Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ"（Ｔｒｕｅ）をプロセスＰ３に転送する。プロセスＰ３は、フラグ領域ＰＧ３に保持されているフラグ"Ｐ３ＰＧ３Ｔ"と、受信したフラグ"Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ"とのＭＩＮ判定を実行し、フラグの"Ｔｒｕｅ"を維持する。

次に、図１６の右側のフラグステップ３において、プロセスＰ２は、フラグ領域ＰＧ２のフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ"（Ｆａｌｓｅ）をプロセスＰ３に転送する。プロセスＰ３は、フラグ領域ＰＧ２に保持されているフラグ"Ｐ３ＰＧ２Ｆ"と、受信したフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ"とのＭＩＮ判定を実行し、フラグの"Ｆａｌｓｅ"を維持する。

プロセスＰ３は、フラグ領域ＰＧ３のフラグ"Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"＝"Ｔｒｕｅ"をプロセスＰ０に転送する。プロセスＰ０は、フラグ領域ＰＧ３に保持されているフラグ"Ｐ０ＰＧ３Ｔ"と、受信したフラグ"Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"とのＭＩＮ判定を実行し、フラグの"Ｔｒｕｅ"を維持する。

フラグステップ３により、プロセスＰ３のフラグ領域ＰＧ２とプロセスＰ０のフラグ領域ＰＧ３へのフラグ（"Ｔｒｕｅ"または"Ｆａｌｓｅ"）の集約が完了する。そして、フラグステップ４以降で、集約が完了したフラグの転送が実行される。

図１７の左側のフラグステップ４において、プロセスＰ３は、フラグ領域ＰＧ２のフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ＋Ｐ３ＰＧ２Ｆ"（Ｆａｌｓｅ）をプロセスＰ０に転送する。プロセスＰ０は、受信したフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ＋Ｐ３ＰＧ２Ｆ"をフラグ領域ＰＧ２に上書きし、フラグの"Ｆａｌｓｅ"を維持する。

プロセスＰ０は、フラグ領域ＰＧ３のフラグ"Ｐ０ＰＧ３Ｔ＋Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"（Ｔｒｕｅ）をプロセスＰ１に転送する。プロセスＰ１は、受信したフラグ"Ｐ０ＰＧ３Ｔ＋Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"をフラグ領域ＰＧ３に上書きし、フラグの"Ｔｒｕｅ"を維持する。

次に、図１７の右側のフラグステップ５において、プロセスＰ０は、フラグ領域ＰＧ２のフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ＋Ｐ３ＰＧ２Ｆ"（Ｆａｌｓｅ）をプロセスＰ１に転送する。プロセスＰ１は、受信したフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ"をフラグ領域ＰＧ２に上書きし、フラグの"Ｆａｌｓｅ"を維持する。

プロセスＰ１は、フラグ領域ＰＧ３のフラグ"Ｐ０ＰＧ３Ｔ＋Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"（Ｔｒｕｅ）をプロセスＰ２に転送する。プロセスＰ２は、受信したフラグ"Ｐ０ＰＧ３Ｔ＋Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"をフラグ領域ＰＧ２に上書きし、フラグの"Ｔｒｕｅ"を維持する。

次に、図１８のフラグステップ６において、プロセスＰ１は、フラグ領域ＰＧ２のフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ＋Ｐ３ＰＧ２Ｆ"（Ｆａｌｓｅ）をプロセスＰ２に転送する。プロセスＰ２は、受信したフラグ"Ｐ０ＰＧ２Ｆ＋Ｐ１ＰＧ２Ｔ＋Ｐ２ＰＧ２Ｆ＋Ｐ３ＰＧ２Ｆ"をフラグ領域ＰＧ２に上書きし、フラグの"Ｆａｌｓｅ"を維持する。

プロセスＰ２は、フラグ領域ＰＧ３のフラグ"Ｐ０ＰＧ３Ｔ＋Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"（Ｔｒｕｅ）をプロセスＰ３に転送する。プロセスＰ３は、受信したフラグ"Ｐ０ＰＧ３Ｔ＋Ｐ１ＰＧ３Ｔ＋Ｐ２ＰＧ３Ｔ＋Ｐ３ＰＧ３Ｔ"をフラグ領域ＰＧ３に上書きし、フラグの"Ｔｒｕｅ"を維持する。以上により、フラグのリングオールリデュースによる集約が完了し、各プロセスＰ０－Ｐ３のフラグ領域ＰＧ２、ＰＧ３には、それぞれ共通のフラグが保持される。

そして、サーバ１００は、フラグ領域ＰＧ２、ＰＧ３に保持されたフラグの集約結果に基づいて、プロセスＰ０－Ｐ３の数が削減可能か否かを判定する。図１８に示す例では、サーバ１００は、各プロセスＰ０－Ｐ３のフラグ領域ＰＧ２が"Ｆａｌｓｅ"（＝論理値０）であるため、プロセス数を２個削減して２個のプロセスＰのみの学習結果で学習を実行する場合、所定以上の認識精度を得ることができない、すなわち、学習の優位性がないと判定する。

また、サーバ１００は、各プロセスＰ０－Ｐ３のフラグ領域ＰＧ３が"Ｔｒｕｅ"（＝論理値１）であるため、プロセス数を１個削減して３個のプロセスＰで学習を実行した場合でも、所定以上の認識精度を得ることが可能、すなわち、学習の優位性があると判定する。これにより、サーバ１００は、プロセス数を１個削減して、３個のプロセスＰをして後続の学習を実行することができる。学習を実行するプロセス数を少なくすることで、後続の学習で使用するプロセッサ２１０、アクセラレータボード２００または処理部ＰＥの数を削減することができ、ハードウェア資源を削減しつつ、電力を削減することができる。

なお、図６から図１８では、"Ｆａｌｓｅ"を論理値０とし、"Ｔｒｕｅ"を論理値１とする例を示すが、"Ｆａｌｓｅ"を論理値１とし、"Ｔｒｕｅ"を論理値０としてもよい。この場合、図１５から図１８では、リングオールリデュースによりＭＡＸ（最大）が集約され、最大値が求められる。そして、サーバ１００は、各プロセスＰ０－Ｐ３のフラグ領域ＰＧ３が"Ｔｒｕｅ"（＝論理値０）であるため、プロセス数を１個削減して３個のプロセスＰで学習を実行した場合でも、所定以上の認識精度を得ることが可能、すなわち、学習の優位性があると判定する。このように、フラグのリングオールリデュースにより、最大値を求める論理演算を実行することでも、プロセスＰ０－Ｐ３間で"Ｔｒｕｅ"の合意を取得することができる。

上述した図６から図１４において、重み勾配データのオールリデュースは、６ステップで完了する。また、上述した図１５から図１８において、フラグ領域ＰＧ２、ＰＧ３のフラグのオールリデュース通信は、６ステップで完了する。すなわち、プロセス数をＮとするとき、重み勾配データおよびフラグのオールリデュース通信は、それぞれ２（Ｎ－１）ステップで完了する。したがって、図１５から図１８に示すオールリデュースは、２＊２（Ｎ－１）ステップ（この例では、１２ステップ）で完了することができる。

これに対して、図２の下側に示したように、２プロセスのオールリデュースと３プロセスのオールリデュース通信とを、４プロセスのオールリデュースとは別に実行する場合、ｎ＿ｐｇ＊２（Ｎ－１）ステップを要する（この例では、１８ステップ）。ここで、ｎ＿ｐｇは、重み勾配データのプロセスグループの数を示し、図２では、"３"である。

図１９は、図１のサーバ１００によるＤＮＮの学習の一例を示す。例えば、図１９に示す処理フローは、サーバ１００のホストＣＰＵ３１０が演算処理プログラムを実行することで実現される。すなわち、図１９は、サーバ１００が実行する演算処理方法の一例および演算処理プログラムの一例を示す。なお、図１９に示す処理フローは、サーバ１００に搭載されるＦＰＧＡ（Field-Programmable Gate Array）等のハードウェアにより実現されてもよく、ハードウェアとソフトウェアを協働させることにより実現されてもよい。

まず、ステップＳ１０において、ホストＣＰＵ３１０は、図４に示したように、複数のプロセスＰを使用して、フォワード処理ＦＷＤおよびバックワード処理ＢＷＤを実行する。次に、ステップＳ１２において、ホストＣＰＵ３１０は、全てのプロセスＰ間で重み勾配データを集約する通常のリングオールリデュースを実行する。

通常のリングオールリデュースでは、図６から図１４の処理に対応する。但し、フラグ領域ＰＧ２、ＰＧ３は使用されないため、図１５から図１８に示したプロセスＰ間でフラグを集約するリングオールリデュースは実行されない。このため、通常のリングオールリデュースのステップ数は、２（Ｎ－１）である。したがって、後述するステップＳ２０で実行される評価用のリングオールリデュースに比べて、リングオールリデュースに掛かる時間を短縮することができる。

次に、ステップＳ１４において、ホストＣＰＵ３１０は、ステップＳ１２によりプロセスＰ間で平均化された重み勾配データを使用して重みを更新するアップデート処理ＵＰを実行する。ステップＳ１０からステップＳ１４の学習は、複数のプロセスＰ０－Ｐ３全ての学習結果を使用して実行される優位性の判定を含まない学習の一例である。次に、ステップＳ１６において、ホストＣＰＵ３１０は、例えば、所定のエポック数を実行したか否かを判定する。すなわち、ホストＣＰＵ３１０は、優位性の判定を含まない複数のプロセスＰ０－Ｐ３全ての学習結果を使用して実行される学習を所定回数実行したか否かを判定する。

ホストＣＰＵ３１０は、所定のエポック数を実行した場合、ステップＳ１８を実行し、所定のエポック数を実行していない場合、ステップＳ１０に戻る。ステップＳ１０に戻った場合、ステップＳ１４で更新された重みを使用して、次の学習のフォワード処理ＦＷＤおよびバックワード処理ＢＷＤが実行される。ステップＳ１６で判定するエポック数は、ステップＳ１０からステップＳ１６のループ中に、認識精度の向上の程度に応じて減らされてもよい。

ここで、所定のエポック数は、ステップＳ２０で集約されるフラグ（"Ｔｒｕｅ"または"Ｆａｌｓｅ"）により、プロセス数の削減が可能な否かを判定できる程度のエポック数である。したがって、１回のエポック数の学習でプロセス数の削減が可能な否かを判定できる場合、ステップＳ１６の判定を実行せずに、ステップＳ１４の後、ステップＳ１８が実行されてもよい。さらに、ステップＳ１０からステップＳ１６を省略し、ステップＳ１８から学習が開始されてもよい。

ステップＳ１８において、ホストＣＰＵ３１０は、図４に示した評価用のリングオールリデュースを実行する前のフォワード処理ＦＷＤおよびバックワード処理ＢＷＤを実行する。次に、ステップＳ２０において、ホストＣＰＵ３１０は、図４に示した評価用のリングオールリデュースを実行する。すなわち、ホストＣＰＵ３１０は、図６から図１８に示したリングオールリデュースを実行し、プロセス数を削減可能な否かを判定する。ステップＳ１８、Ｓ２０による学習は、複数のプロセスＰ０－Ｐ３を使用した優位性の判定を含む学習の一例である。

次に、ステップＳ２２において、ホストＣＰＵ３１０は、プロセス数を削減してもＤＮＮを所定の認識精度まで向上可能と判定した場合、ステップＳ２４を実行する。ホストＣＰＵ３１０は、プロセス数を削減した場合、ＤＮＮを所定の認識精度まで向上することが困難な場合、ステップＳ２６を実行する。ステップＳ２４おいて、ホストＣＰＵ３１０は、ステップＳ２０での判定に基づいて、プロセス数を削減し、ステップＳ２６を実行する。

ステップＳ２６において、ホストＣＰＵ３１０は、ステップＳ２０、Ｓ２２、Ｓ２４の処理により決定した数のプロセスＰを使用して、フォワード処理ＦＷＤおよびバックワード処理ＢＷＤを実行する。次に、ステップＳ２８において、ホストＣＰＵ３１０は、ステップＳ１２と同様に、全てのプロセスＰ間で重み勾配データを集約する通常のリングオールリデュースを実行する。したがって、ステップＳ２０で実行される評価用のリングオールリデュースに比べて、リングオールリデュースに掛かる時間を短縮することができる。

次に、ステップＳ３０において、ホストＣＰＵ３１０は、ステップＳ２８よりプロセスＰ間で平均化された重み勾配データを使用して重みを更新するアップデート処理ＵＰを実行する。ステップＳ２６からステップＳ３０の学習は、ステップＳ２２による優位性の判定によりプロセス数が削減可能と判定された場合に、削減したプロセス数により実行される優位性の判定を含まない後続の学習の一例である。ステップＳ２６以降の学習がプロセス数を削減して実行される場合、サーバ１００の消費電力を削減することができる。

次に、ステップＳ３２において、ホストＣＰＵ３１０は、認識精度が所定以上になったか否かを判定する。ホストＣＰＵ３１０は、認識精度が所定以上になった場合、図１９に示す学習を終了する。ホストＣＰＵ３１０は、認識精度が所定未満の場合、ステップＳ３４を実行する。ステップＳ３４において、ホストＣＰＵ３１０は、エポック数が上限に達したか否かを判定する。

ホストＣＰＵ３１０は、エポック数が上限に達した場合、図１９に示す動作を終了する。ホストＣＰＵ３１０は、エポック数が上限に達していない場合、ステップＳ２６に戻り、ステップＳ３０で更新された重みを使用して、次の学習のフォワード処理ＦＷＤおよびバックワード処理ＢＷＤを実行する。

以上、この実施形態では、１回のオールリデュースにより、複数通りのプロセス数の重み勾配データの平均を算出できるため、図２の下側の比較例に比べて、学習時間を短縮することができ、学習効率を向上することができる。換言すれば、学習を実行させるプロセス数を変えた場合の認識精度の優位性を１回の集約処理により判定することができる。

重み勾配データのリングオールリデュース中に、集約が完了した重み勾配データと集約途中の重み勾配データとを比較することで、プロセスＰ毎に、学習の優位性を判定することができる。そして、判定した学習の優位性を示す情報をフラグとしてフラグ領域ＰＧ２、ＰＧ３に保持することで、学習の優位性の判定結果を集約するリングオールリデュースを実行することができる。

フラグのリングオールリデュースにより、最小値を求める論理演算を実行することで、複数のプロセスＰ間で"Ｔｒｕｅ"の合意を取得することができる。あるいは、フラグのリングオールリデュースにより、最大値を求める論理演算を実行することで、複数のプロセスＰ間で"Ｔｒｕｅ"の合意を取得することができる。

評価用のリングオールリデュースを実行する学習の前に、フラグ領域ＰＧ２、ＰＧ３のフラグを集約しない通常のリングオールリデュースを実行することで、リングオールリデュースのステップ数を削減することができ、学習時間を短縮することができる。学習を実行するプロセス数を少なくして後続の学習を実行することで、学習に使用するハードウェア資源を削減しつつ、電力を削減することができる。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１００サーバ
２００アクセラレータボード
２１０プロセッサ
２２０メモリ
３００ホスト
３１０ホストＣＰＵ
３２０メモリ
４００ストレージ
４１０学習データ
ＢＵＦバッファ
ＢＷＤバックワード処理
ＣＯＭＭプロセス間通信
ＦＷＤフォワード処理
プロセスＰ（Ｐ０－Ｐ３）
ＰＥ処理部
ＰＧ２、ＰＧ３フラグ領域
ＰＲ（ＰＲｎ０－ＰＲｎ３）領域
ＵＰアップデート処理

Claims

ディープニューラルネットワークの学習を実行可能な演算部を有する演算処理装置であって、
複数のプロセスを前記演算部に割り当てて前記学習を並列に実行し、
前記複数のプロセスのそれぞれによる学習により得られた、前記ディープニューラルネットワークで使用する複数の変数の更新にそれぞれ使用する複数の変数更新情報を、前記複数の変数毎に前記複数のプロセス間で集約する集約処理を実行し、
前記集約処理中に、前記複数のプロセス間で集約された変数更新情報である第１変数更新情報と、集約途中の変数更新情報である第２変数更新情報とに基づいて、前記複数のプロセスのプロセス数より少ない所定数のプロセスによる学習の優位性を判定する
演算処理装置。
前記複数のプロセスのそれぞれにおいて、前記複数の変数のいずれかに対応する前記第１変数更新情報と前記第２変数更新情報とに基づいて、変数毎に前記優位性を判定し、
前記複数のプロセスのそれぞれで判定した変数毎の前記優位性の判定結果を集約処理により前記複数のプロセス間で集約し、集約結果に基づいて前記所定数のプロセスによる学習の優位性を判定する
請求項１に記載の演算処理装置。
前記優位性の判定結果を論理値として保持するフラグを前記複数のプロセスに割り当て、前記優位性の判定結果を集約する集約処理により前記フラグが保持する論理値を論理演算することで、前記優位性の判定結果を前記複数のプロセス間で集約する
請求項２に記載の演算処理装置。
前記優位性があると判定した場合、前記フラグに論理値１を保持し、前記優位性がないと判定した場合、前記フラグに論理値０を保持し、前記優位性の判定結果を集約する集約処理により最小値を求め、前記優位性の判定結果を集約する集約処理後に前記複数のプロセスの前記フラグが論理値１の場合、前記所定数のプロセスによる学習に優位性があると判定する
請求項３に記載の演算処理装置。
前記優位性がある場合、前記フラグに論理値０を保持し、前記優位性がない場合、前記フラグに論理値１を保持し、前記優位性を集約する集約処理により最大値を求め、前記優位性を集約する集約処理後に前記複数のプロセスの前記フラグが論理値０の場合、前記所定数のプロセスによる学習に優位性があると判定する
請求項３に記載の演算処理装置。
前記複数のプロセスを使用して、前記優位性の判定を含まない学習を所定回数実行した後、
前記複数のプロセスを使用して、前記優位性の判定を含む学習を実行し、
前記優位性の判定により前記所定数のプロセスによる認識精度が優位と判定した場合、前記所定数のプロセスを使用して、前記優位性の判定を含まない後続の学習を実行する
請求項１ないし請求項５のいずれか１項に記載の演算処理装置。
ディープニューラルネットワークの学習を実行可能な演算部を有する演算処理装置による演算処理方法であって、
複数のプロセスを前記演算部に割り当てて前記学習を並列に実行し、
前記複数のプロセスのそれぞれによる学習により得られた、前記ディープニューラルネットワークで使用する複数の変数の更新にそれぞれ使用する複数の変数更新情報を、前記複数の変数毎に前記複数のプロセス間で集約する集約処理を実行し、
前記集約処理中に、前記複数のプロセス間で集約された変数更新情報である第１変数更新情報と、集約途中の変数更新情報である第２変数更新情報とに基づいて、前記複数のプロセスのプロセス数より少ない所定数のプロセスによる学習の優位性を判定する
演算処理方法。
ディープニューラルネットワークの学習を実行可能な演算部を有する演算処理装置が実行する演算処理プログラムであって、
複数のプロセスを前記演算部に割り当てて前記学習を並列に実行し、
前記複数のプロセスのそれぞれによる学習により得られた、前記ディープニューラルネットワークで使用する複数の変数の更新にそれぞれ使用する複数の変数更新情報を、前記複数の変数毎に前記複数のプロセス間で集約する集約処理を実行し、
前記集約処理中に、前記複数のプロセス間で集約された変数更新情報である第１変数更新情報と、集約途中の変数更新情報である第２変数更新情報とに基づいて、前記複数のプロセスのプロセス数より少ない所定数のプロセスによる学習の優位性を判定する
処理を前記演算処理装置に実行させる演算処理プログラム。