JP7387026B2

JP7387026B2 - 並列処理システムにおけるモデルパラメータの更新

Info

Publication number: JP7387026B2
Application number: JP2022559796A
Authority: JP
Inventors: トルドゥバッケンオラ; セボラニロレンゾ
Original assignee: Graphcore Ltd
Current assignee: Graphcore Ltd
Priority date: 2020-04-02
Filing date: 2020-12-22
Publication date: 2023-11-27
Anticipated expiration: 2040-12-22
Also published as: WO2021197659A1; CN115552388A; JP2023519432A; GB202008390D0; US11886934B2; GB2593756B; GB202004857D0; WO2021197657A1; EP4111322A1; KR20220157503A; US20210311808A1; GB2593756A; GB2593785B; GB2593785A; US20210311807A1

Description

本開示は、多数の処理ノードを有するシステムにおけるデータ交換及びモデルパラメータの更新のためのシステム及び方法に関する。

並列処理を実行するためのシステムは、多数の処理ノードを含み得、多数の処理ノードの各々は、それらの結果を定期的に共有する前にデータセットに対して動作を実行するように構成される。一般的なタイプの並列処理は、各処理ノードがモデルの更新を独立して得ることを伴い、モデルは、モデルパラメータのセットによって表されている。次いで、処理ノードの各々は、モデルパラメータをどのように更新するかを共同で決定する。

モデルを更新するためのマルチ処理ノードシステムの適用の一例は、例えば、ディープニューラルネットワークの環境においてなど、機械学習アルゴリズムの環境において見られる。機械知能の分野の当業者によく知られているように、機械知能アルゴリズムは、複数の相互接続ノードのグラフによって表すことができる「知識モデル」の反復更新の実行を中心とする。各ノードは、その入力の関数を表す。いくつかのノードは、グラフへの入力を受信し、いくつかのノードは、１つ又は複数の他のノードからの入力を受信する。いくつかのノードの出力は、他のノードの入力を形成し、いくつかのノードの出力は、グラフの出力を提供する（いくつかの事例では、所定のノードは、これらのグラフへの入力、グラフからの出力及び他のノードとの接続のすべてをも有し得る）。さらに、各ノードの関数は、１つ又は複数のそれぞれのモデル組み込みパラメータ（例えば、重み）によってパラメータ化される。学習段階の間、その目標は、実験的な入力データセット（すなわち、サンプル）に基づいて、全体としてのグラフが可能入力範囲に対する所望の出力を生成するように、様々なパラメータに対する値を見出すことである。次いで、動作フェーズの間、それらの導出パラメータを有するグラフを適用して、さらなる入力データを使用して出力値を生成することができる。

当技術分野では、確率的勾配降下法に基づく逆伝播アルゴリズムなど、グラフの訓練を実行するための様々なアルゴリズムが知られている。複数の反復にわたり、訓練データセットに基づいて、パラメータは、それらの誤差を減少するように徐々に調節され、グラフは解に向けて収束する。次いで、後続の段階では、学習済みのモデルを使用して、特定の入力セットを与えられたときの出力の予測を行うこと、又は、特定の出力セットを与えられたときの入力（原因）について推論することができる。

ニューラルネットワークの訓練は、マルチ処理ノードシステムを使用して実行することができる。マルチ処理ノードシステムを使用したニューラルネットワークの訓練は、データ並列処理を適用することによって達成され、データ並列処理では、各処理ノードは、異なるデータセットを使用してニューラルネットワークに対する更新済みの重み又は重みの更新を導出する。次いで、更新／更新済みの重みは、交換フェーズの間に、処理ノード間で同期化される。そのような同期プロセスは、第１の段階において処理ノード間で更新を交換することを伴い得、各処理ノードは、第１の段階で受信した更新に対して動作（例えば、平均化）を実行した後に、さらなる段階に移行して、それらの動作の結果（例えば、平均化された更新）自体が交換される。そのような交換スキームは、コレクティブを使用して実施することができる。

コレクティブは、コンピュータでデータを処理する際に一般的に使用されるルーチンである。それらは、複数の異なるプロセスにわたるデータの共有及び処理を可能にするルーチンであり、同じ処理ノード又は異なる処理ノード上で実行できる。例えば、あるプロセスがデータストアからデータを読み取った場合、そのプロセスは、「ブロードキャスト」プロセスを使用して、そのデータを他のプロセスと共有することができる。別の例は、複数のプロセスにおいて特定の関数の結果が必要である時である。「リダクション」は、複数のプロセスの各々からのデータ値への演算関数の適用が必要とされた結果である。「ギャザ」及び「スキャタ」コレクティブは、複数のデータアイテムを取り扱う。特定のコレクティブは、機械学習アプリケーションの処理においてますます重要になった。

コレクティブのタイプの１つは、オールリデュースコレクティブとして知られている。オールリデュースコレクティブは、２つの段階を含み、その第１の段階は、「リデューススキャタ」コレクティブと呼ばれ、その第２の段階は、「オールギャザ」コレクティブと呼ばれる。多数の処理ノードの各々が異なるデータセットを格納すると想定すると、リデューススキャタコレクティブが実行された際、リデューススキャタコレクティブの各ステップでは、各処理ノードは、その近隣の処理ノードの少なくとも１つに異なるデータサブセットを渡す。各処理ノードは、受信したデータサブセットをリデュースし、次いで、そのリデュースしたデータサブセットをその近隣の処理ノードの少なくとも１つに渡す。最終的には、システムの各処理ノードは、全データの異なるサブセットを有するようになり、これらのサブセットの各々は、処理ノードの各々においてその対応する開始サブセットのすべてのリダクションを行った結果である。リデューススキャタに続いて、オールギャザコレクティブが実行され、オールギャザコレクティブでは、各処理ノードによって保持されるデータサブセットが共有され、その結果、各処理ノードは、同じデータのフルセットを有することになる。

マルチ処理ノードシステムを使用してモデルを更新することと関連付けられる問題の１つは、モデルの更新に関与する処理量をどのように最小限に抑えるかである。各処理ノードが異なる更新セットを得た時点で、これらの更新はすべて、モデルパラメータのフルセットの更新に使用されることになる。手法の１つは、オールリデュースコレクティブを使用して処理ノード間で更新を交換し、次いで、処理ノードの各々がモデルの更新済みのパラメータのフルセットを独立して導出することである。しかし、これには、異なるノードで同じ更新動作を複数回実行することが必要とされ、効率が悪い。

第１の態様によれば、多数の処理ノードを含むデータ処理システムであって、多数の処理ノードの各々が、モデルのモデルパラメータアレイ及びモデルパラメータの更新アレイを格納するように構成された少なくとも１つのメモリを含み、更新アレイの各々が、異なる入力データセットをモデルで処理した結果であり、多数の処理ノードの各々の少なくとも１つのプロセッサが、それぞれの更新アレイを使用して、処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のリデューススキャタコレクティブを含む第１の１つ又は複数のコレクティブセットに参加して、リデュース済みの更新アレイのサブセットを得ることと、第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用して、更新済みのモデルパラメータアレイのサブセットを生成することと、その後、更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して、処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のオールギャザコレクティブを含む第２の１つ又は複数のコレクティブセットに参加して、更新済みのモデルパラメータアレイの残りの要素を得ることと、を行うように構成される、データ処理システムが提供される。

いくつかの実施形態では、１つ又は複数のリデューススキャタコレクティブに続いて、各処理ノードは、モデルパラメータに適用される予定の更新のフルセットの異なるサブセットを格納する。次いで、各処理ノードは、モデルパラメータのいくつかを更新するために、その更新のサブセットを適用する。更新済みのパラメータは、１つ又は複数のオールギャザを使用して処理ノードの間で共有され、その結果、各処理ノードは、最後には、モデルパラメータのフルセットを有するようになる。各処理ノードがモデルパラメータの異なる部分を更新し、次いで、更新済みのパラメータが共有されるため、各処理ノードが更新済みのモデルパラメータのフルセットを独立して導出する必要はない。本発明は機械学習モデルの環境において開発されているが、マルチ処理ノードシステムにおいて並列処理を使用して更新されるいかなる種類のコンピュータモデルも更新するための技法として適用することができる。

いくつかの実施形態では、多数の処理ノードの各々に対して、少なくとも１つのメモリのそれぞれは、状態情報を含み、更新済みのモデルパラメータアレイのサブセットを生成するステップは、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイのサブセットを生成することを含む。

いくつかの実施形態では、多数の処理ノードの各々に対して、それぞれの状態情報は、多数の状態情報アイテムを含み、更新済みのモデルパラメータの各々は、状態情報アイテムの少なくとも１つと関連付けられ、更新済みのモデルパラメータアレイのサブセットを生成するステップは、その関連付けられた少なくとも１つの状態情報アイテムを使用して、更新済みのモデルパラメータの各々を生成することを含む。

いくつかの実施形態では、多数の処理ノードの各々に対して、第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットを使用して以前の状態情報セットを更新することによって、それぞれの状態情報が得られる。

いくつかの実施形態では、多数の処理ノードの各々に対して、それぞれの処理ノードによって維持される状態情報は、それらの処理ノードのうちの他の処理ノードによって維持される状態情報とは異なるモデルパラメータと関連付けられる。

いくつかの実施形態では、モデルパラメータアレイの各々は、ニューラルネットワークに対するモデルパラメータを含み、更新アレイの各々は、ニューラルネットワークに対するモデルパラメータを更新するための勾配を含む。

いくつかの実施形態では、多数の処理ノードの各々に対して、少なくとも１つのメモリのそれぞれは、状態情報を含み、更新済みのモデルパラメータアレイのサブセットを生成するステップは、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイのサブセットを生成することを含み、それぞれの状態情報は、オプティマイザ状態を含む。

いくつかの実施形態では、多数の処理ノードの各々は、それぞれのモデルパラメータアレイ及びそれぞれの入力データセットを使用してそれぞれの更新アレイを生成するように構成される。

いくつかの実施形態では、多数の処理ノードの各々は、少なくとも１つのさらなる処理ノードからそれぞれの更新アレイを受信するように構成される。

いくつかの実施形態では、データ処理システムは、多数の処理ノードグループを含み、各処理ノードグループは、第１の処理ノード及び第２の処理ノードを含み、多数の処理ノードの各々は、それらのグループの異なるグループに属し、第１の処理ノードのうちの１つであるか又は第２の処理ノードのうちの１つであり、各処理ノードグループは、そのグループのそれぞれの更新アレイを生成するために多段階プロセスを実行するように構成され、各処理ノードグループに対して、そのグループの第１の処理ノードは、多数の時間帯の少なくとも１つの間、多段階プロセスの１つの段階と関連付けられた計算を実行するためにそれらの時間帯のうちの後続の時間帯に必要とされるデータを少なくとも１つのデータ記憶装置からロードするように構成され、そのグループの第２の処理ノードは、多数の時間帯の少なくとも１つの間、それらの時間帯のうちの以前の時間帯に少なくとも１つのデータ記憶装置からロードされたデータを使用して、多段階プロセスの段階の１つと関連付けられた計算を実行するように構成され、多数の処理ノードの第１の処理ノード及び第２の処理ノードの少なくとも１つは、多数の処理ノードの第１の処理ノード及び第２の処理ノードの他方の処理ノードからデータを受信することと、それらの時間帯のうちの後続の時間帯の少なくとも１つの間、多数の処理ノードの第１の処理ノード及び第２の処理ノードの他方の処理ノードから受信したデータを使用して、多段階プロセスの段階のそれぞれのものと関連付けられた計算を実行することとを行うように構成される。

いくつかの実施形態では、多数の処理ノードの各々は、少なくとも１つの処理ユニット及びゲートウェイデバイスを含む。

いくつかの実施形態では、多数の処理ノードの各々に対して、１つ又は複数のリデューススキャタコレクティブは、多数のリデューススキャタコレクティブを含み、１つ又は複数のオールギャザコレクティブは、多数のオールギャザコレクティブを含み、少なくとも１つの処理ユニットは、多数のリデューススキャタコレクティブの少なくとも１つ及び多数のオールギャザコレクティブの少なくとも１つを実行するように構成され、ゲートウェイデバイスは、多数のリデューススキャタコレクティブの少なくとも１つを実行し、その後、多数のオールギャザコレクティブの少なくとも１つを実行し、その後、更新済みのモデルパラメータアレイのサブセットを生成するために、リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用するステップを実行するように構成される。

第２の態様によれば、多数の処理ノードを含むデータ処理システムにおいて実施される方法であって、多数の処理ノードの各々が、モデルのモデルパラメータアレイ及びモデルパラメータの更新アレイを格納するように構成された少なくとも１つのメモリを含み、更新アレイの各々が、異なる入力データセットをモデルで処理した結果であり、上記方法は、多数の処理ノードの各々において、それぞれの更新アレイを使用して、処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のリデューススキャタコレクティブを含む第１の１つ又は複数のコレクティブセットに参加して、リデュース済みの更新アレイのサブセットを得ることと、第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用して、更新済みのモデルパラメータアレイのサブセットを生成することと、その後、更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して、処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のオールギャザコレクティブを含む第２のコレクティブセットに参加して、更新済みのモデルパラメータアレイの残りの要素を得ることと、を含む方法が提供される。

いくつかの実施形態では、方法は、多数の処理ノードの各々において、第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットを使用して以前の状態情報セットを更新することによって、それぞれの状態情報を得ることを含む。

いくつかの実施形態では、多数の処理ノードの各々の少なくとも１つのメモリは、状態情報を含み、更新済みのモデルパラメータアレイのサブセットを生成するステップは、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイのサブセットを生成することを含み、それぞれの状態情報は、オプティマイザ状態を含む。

第３の態様によれば、コンピュータ可読命令セットを含むコンピュータプログラムであって、各命令セットが、多数の処理ノードの異なる処理ノード上で実行するためのものであり、多数の処理ノードの各々が、モデルのモデルパラメータアレイ及びモデルパラメータの更新アレイを格納するように構成された少なくとも１つのメモリを含み、更新アレイの各々が、異なる入力データセットをモデルで処理した結果であり、コンピュータ可読命令セットの各々は、処理ノードによって実行されると、多数の処理ノードの各々において、それぞれの更新アレイを使用して、それらの処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のリデューススキャタコレクティブに参加して、リデュース済みの更新アレイのサブセットを得ることと、１つ又は複数のリデューススキャタコレクティブに続いて、リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用して、更新済みのモデルパラメータアレイのサブセットを生成することと、その後、更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して、処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のオールギャザコレクティブに参加して、更新済みのモデルパラメータアレイの残りの要素を得ることと、をそれぞれの処理ノードに行わせるように構成される、コンピュータプログラムが提供される。

第４の態様によれば、第３の態様によるコンピュータプログラムを格納する非一時的なコンピュータ可読記憶媒体が提供される。

本発明をどのように実施できるかを示すために本発明をより良く理解するため、ここでは、例として、添付の図面を参照する。

処理ノードが演算とデータのロード／アンロードとを切り替えるシステムの例を示す。２つの処理ノードが演算とデータのロード／アンロードとで役割を切り替えるシステムの例を示す。１つの処理ノードがデータのロード／アンロードを実行し、別の処理ノードが演算を実行するシステムの例を示す。実施形態による、処理ノードの異なるフェーズの例を示す。４つの処理ノードを有するデータ処理システムの実施形態を示す。４つの処理ノードを有するデータ処理システムの各処理ノードによって実行されるタスクの例を示す。ニューラルネットワークを簡略化した例を示す。ニューラルネットワークにおけるノードの活性化の計算の例を示す。例示的なニューラルネットワークを走らせる際に、２つの処理ノードシステムにおいて、処理ノードが役割を入れ替える場合に、各処理ノードによって実行されるタスクの例を示す。例示的なニューラルネットワークを走らせる際に、２つの処理ノードシステムにおいて、処理ノードが役割を入れ替えない場合に、各処理ノードによって実行されるタスクの例を示す。ニューラルネットワークを走らせる際に、４つの処理ノードシステムにおいて各処理ノードによって実行されるタスクの例を示す。コレクティブ動作を実行するために異なるセットに配列された処理ノードシステムの例を示す。リデューススキャタ動作が実行された後の処理ノードシステムを示す。オールリデュースが実行された後の処理ノードシステムを示す。オールギャザ動作が実行された後の処理ノードシステムを示す。例示的なマルチタイル処理ノードを示す。例示的なマルチタイル処理ノードにおける演算フェーズ及び交換フェーズを示す。マルチタイル処理ノードにおけるバリア同期を示す。内部及び外部バリア同期を示す。２つの処理ノードとインタフェースを取るためのゲートウェイを示す。ニューラルネットの分散訓練を示す概略図である。簡単な「ストリーミング」ラインオールリデュースアルゴリズムを実施するための処理ノードのラインを示す概略図である。終点ノードが接続されてリング状になっているラインの概略図である。リデューススキャタステップに続いてオールギャザステップを伴うオールリデュース関数の実装形態を示す概略図である。リデューススキャタ動作の段階の概略図である。オールリデュース動作の動作タイミングを示す概略図である。モデルパラメータを更新するためのプロセスを示すシステムの概略図である。モデルパラメータを更新するためのプロセスを示すシステムの概略図である。複数の第３の処理ノードセットを有するデータ処理システムを示す概略図である。データアイテムアレイを交換するための方法を示す。多段階プロセスを実施するための方法を示す。モデルパラメータを更新するための方法を示す。ゲートウェイ及び処理ノードのシステムの一例を示す。ゲートウェイ及び処理ノードのシステムの別の例を示す。ラック内の処理ノードを示し、処理ノードの各々は、機械学習モデルに対する勾配のフルセットの異なるセットを格納する。ラック内の処理ノードを示し、処理ノードの各々は、機械学習モデルに対するリデュース済みの勾配のサブセットを格納する。異なるラック内のゲートウェイを示し、ゲートウェイ間では、オールリデュースがリングの異なる方向において実行される。ラック内の処理ノードを示し、処理ノードの各々は、機械学習モデルに対する更新済みの重みのサブセットを格納する。ラック内の処理ノードを示し、処理ノードの各々は、機械学習モデルに対する更新済みの重みのフルセットを格納する。

図１は、単一の処理ノード１０５が、データのロード及びアンロードを行うことができる外部の記憶装置１１５を使用して、多段階プロセスをどのように進み得るかを示す例を示す。

ここでは、添付の図を参照して、第１の発明の実施形態をより詳細に説明する。

図２を参照すると、図２は、マルチ処理ノードシステム２００を示している。システム２００は、記憶装置２１０と通信するように構成された第１の処理ノード２０５ａ及び第２の処理ノード２０５ｂを含む。第１の処理ノード２０５ａ及び第２の処理ノード２０５ｂの少なくとも１つは、特定のフェーズの間、記憶装置２１０からのデータのロード及び／又は記憶装置２１０へのデータのアンロードを含む準備動作を実行するように構成される。第１の処理ノード２０５ａ及び第２の処理ノード２０５ｂの一方が記憶装置２１０からのデータのロード及び／又は記憶装置２１０へのデータのアンロードを行うフェーズの間、処理ノード２０５ａ、２０５ｂの他方は、演算を実行している。この説明全体を通じて、論じられる準備動作はロード／アンロード動作であるが、処理ノードによってデータのロード／アンロードのために使用されるフェーズの間は、その処理ノードは、一時的な状態（メモリ制約のために放棄されたものである）の「再計算」、コレクティブ及びモデル更新／オプティマイザに関連する計算のうちの１つ又は複数を含む、他の準備動作を追加で実行することができる。

いくつかの実施形態では、処理ノード２０５ａ、２０５ｂは、演算の実行と、記憶装置２１０からのデータのロード／記憶装置２１０へのデータのアンロードとを交互に行うように構成される。この事例では、処理ノード２０５ａ、２０５ｂは、プロセスの間、連続的に役割を入れ替える。例えば、第１のフェーズの間、第１の処理ノード２０５ａは、プロセスの第１の段階と関連付けられた計算を実行して、結果を生成する。これらの結果は、後続の段階と関連付けられた計算に使用される。また、第１のフェーズの間、第２の処理ノード２０５ｂは、後続のフェーズの間に処理を実行するために必要なデータを記憶装置２１０からロードする。次いで、第２のフェーズの間、第１の処理ノード２０５ａは、第１のフェーズで計算したデータを記憶装置２１０にアンロードし、後続のフェーズの間に処理するために必要なデータをロードする。また、第２のフェーズの間、第２の処理ノード２０５ｂは、第１のフェーズの間に記憶装置２１０からロードしたデータを使用して処理を実行する。第３のフェーズの間、処理ノード２０５ａ、２０５ｂは、再び役割を切り替え、第１の処理ノード２０５ａは、第２のフェーズの間に記憶装置２１０からロードしたデータを使用して計算を実行するように構成され、第２の処理ノード２０５ｂは、第２のフェーズの間に計算したデータをアンロードし、さらなるフェーズの間に処理するために必要なデータをロードする。

処理ノード２０５ａ、２０５ｂの一方は、それらの段階のうちの１つと関連付けられた計算を実行し、他方の処理ノードは、後続の段階と関連付けられた計算を実行するために必要なロード／アンロードを実行するため、第１の処理ノード２０５ａ及び第２の処理ノード２０５ｂは、共に、複数のフェーズにわたる多段階プロセスをより効率的に実行するように構成される。

複数の段階のうちの１つ又は複数は、プロセスの先行する段階によって出力された結果に依存する。従って、処理ノード２０５ａと処理ノード２０５ｂとの間のデータの交換に対して、追加のフェーズが使用される。これにより、処理ノード２０５ａ、２０５ｂの一方は、前の段階と関連付けられた計算の結果にアクセスすることができ、従って、処理ノード２０５ａ、２０５ｂの他方は、プロセスの次の段階と関連付けられた計算を実行することができる。これらの追加のフェーズは、本明細書では、処理ノード間交換フェーズと呼ばれる。

図３を参照すると、図３は、処理ノード２０５ａ、２０５ｂの一方が、本明細書では演算フェーズ及び処理ノード間交換フェーズと呼ばれる２つの異なるタイプのフェーズをどのように交互に行うことができるかを示している。演算フェーズの間、それぞれの処理ノードは、（ｉ）多段階プロセスの段階のうちの１つに対応する計算、及び、（ｉｉ）システムの記憶装置からのロード／システムの記憶装置へのアンロードのうちの１つを実行するように構成される。従って、図２に関して上記で論じられる「第１のフェーズ」及び「第２のフェーズ」は、図３に示される演算フェーズに相当する。処理ノード間交換フェーズの間、処理ノードは、互いにデータを交換するように構成される。このデータ交換は、２つの処理ノード間で直接行われるものとして示されているが、記憶装置２１０を含むゲートウェイなど、より複雑な中間デバイスを介して行うことができる。処理ノード間交換フェーズの間に処理ノード間でデータを交換することにより、各処理ノードは、別の処理ノードによって計算された及び次の演算フェーズの間の次の段階の処理を実行するために必要な前の段階の結果を得ることができる。

本明細書で論じられる演算及び処理ノード間交換フェーズは、バルク同期並列（ＢＳＰ）演算及び交換フェーズであり得る。本明細書で論じられる及び図３に示される各演算フェーズは、プリコンパイル済みの同期バリアによって処理ノード間交換フェーズから分離される。しかし、示される各演算フェーズは、他のタイプのデータ交換のための１つ又は複数の交換フェーズを含み得る。例えば、論じられるような各演算フェーズは、処理ノード２０５ａ、２０５ｂ内のプロセッサ間でのデータ交換のための１つ若しくは複数の交換フェーズ、及び／又は、処理ノード２０５ａ、２０５ｂと記憶装置２１０との間のデータのロード／アンロードのために使用される１つ若しくは複数の交換フェーズを含み得る。

実施形態では、ノード２０５ａとノード２０５ｂとの間の通信に利用できる帯域幅は、ノード２０５ａ、２０５ｂの各々と記憶装置２１０との間の通信に利用できる帯域幅より大きい。従って、特定のデータの交換のために処理ノード間交換フェーズを使用することは、より大きな利用可能なノード間帯域幅を利用するという利点を有する。しかし、実施形態では、ノード２０５ａ、２０５ｂは、プロセス全体に必要なデータのすべてを格納するほど十分な記憶容量を保有しておらず、記憶装置２１０は、ノード２０５ａ、２０５ｂより大きな記憶容量を有するため、記憶装置２１０は、特定のデータのロード／アンロードに使用される。

ここで再び図２を参照すると、図２は、処理ノード２０５ａ、２０５ｂが異なるフェーズでどのように動作することができるかを示す表２２０を示している。表２２０に示されるように、第１の演算フェーズの間、処理ノード２０５ａは、多段階プロセスの第１の段階の処理を実行する。また、第１の演算フェーズの間、処理ノード２０５ｂは、データのロード／アンロード動作を実行する。このフェーズの間のデータのロード／アンロード動作は、処理ノード２０５ｂが多段階プロセスの第２の段階の処理を実行するために必要なデータを記憶装置２１０から受信することを含む。

第１の演算フェーズに続いて、第１の処理ノード間交換が行われる。この第１の処理ノード間交換では、処理ノード２０５ａは、第１の段階で行われた処理の結果を処理ノード２０５ｂに送信する。

第１の処理ノード間交換フェーズに続いて、システム２００は、第２の演算フェーズに進む。第２の演算フェーズの間、第２の処理ノード２０５ｂは、多段階プロセスの第２の段階と関連付けられた処理を実行する。第２の処理ノード２０５ｂは、処理ノード２０５ａから受信した第１の段階の処理の結果に応じて、この処理を実行する。また、第２の演算フェーズの間、第１の処理ノード２０５ａは、第１の演算フェーズの間に計算した結果を記憶装置２１０にアンロードする。これらの結果を記憶装置２１０にアンロードすることにより、これらの結果は、後続の処理（表２２０によって示される多段階プロセスとは別個のプロセスの一部であり得る）で必要とされる際に利用可能になる。また、第２の演算フェーズの間、第１の処理ノード２０５ａは、処理するために必要なデータを記憶装置２１０からロードする。このデータは、次の演算段階の間に第１の処理ノード２０５ａによって処理するために使用される。

第２の演算フェーズに続いて、第２の処理ノード間交換が行われる。この第２の処理ノード間交換では、第２の処理ノード２０５ｂは、第２の段階で行われた処理の結果を第１の処理ノード２０５ａに送信する。

第２の処理ノード間交換フェーズに続いて、システム２００は、第３の演算フェーズに進む。第３の演算フェーズの間、第１の処理ノード２０５ａは、多段階プロセスの第３の段階と関連付けられた処理を実行する。第１の処理ノード２０５ａは、第２の処理ノード２０５ｂから受信した第２の段階の処理の結果に応じて、この処理を実行する。また、第３の演算フェーズの間、第２の処理ノード２０５ｂは、第２の演算フェーズの間に計算した結果を記憶装置２１０にアンロードするように構成される。これらの結果を記憶装置２１０にアンロードすることにより、これらの結果は、後続の処理（表２２０によって示される多段階プロセスとは別個のプロセスの一部であり得る）で必要とされる際に利用可能になる。また、第３の演算フェーズの間、第２の処理ノード２０５ｂは、処理するために必要なデータを記憶装置２１０からロードする。このデータは、次の演算段階の間に第２の処理ノード２０５ｂによって処理するために使用される。

システム２００は、説明されるように、処理ノード２０５ａ、２０５ｂの一方によって最終結果が得られるまで、プロセスの段階を引き続き進行することができる。

図２は、処理ノード２０５ａ、２０５ｂが各演算フェーズ間で役割を交互に行う例を示す。しかし、他の実施形態では、処理ノード２０５ａ、２０５ｂは、固定された役割を有し得る。言い換えれば、処理ノード２０５ａ、２０５ｂの一方は、各段階と関連付けられた計算を実行することに専念し、処理ノード２０５ａ、２０５ｂの他方は、各段階と関連した計算を準備するために必要なデータのロード／アンロード動作を実行することに専念する。図２Ａを参照すると、図２Ａは、そのような事例において各フェーズの間に実行される処理の例を示している。

図２Ａに示されるように、第１の演算フェーズの間、第１の処理ノード２０５ａは、多段階プロセスの第１の段階と関連付けられた処理を実行して、結果を生成するように構成される。また、第１の演算フェーズの間、処理ノード２０５ｂは、第２の段階と関連付けられた処理を実行するために第２の演算フェーズの間に必要なデータを記憶装置２１０からロードする。第１の処理ノード間交換フェーズの間、第１の処理ノード２０５ａは、第１の演算フェーズの間に計算した結果を第２の処理ノード２０５ｂに渡す。また、第１の処理ノード間交換フェーズの間、第２の処理ノード２０５ｂは、第１の演算フェーズの間に記憶装置からロードしたデータを第１の処理ノード２０５ａに渡す。第２の演算フェーズの間、第１の処理ノード２０５ａは、第１の演算フェーズの間に計算した結果を使用して、及び、第１の処理ノード間交換フェーズの間に処理ノード２０５ｂから受信したデータを使用して、第２の段階と関連付けられた処理を実行する。また、第２の演算フェーズの間、第２の処理ノード２０５ｂは、第１の演算フェーズの間に処理ノード２０５ａによって計算された結果を記憶装置２１０にアンロードする。また、第２の処理ノード２０５ｂは、第２の演算フェーズの間、第３の段階と関連付けられた処理を実行するために必要なデータを記憶装置２１０からロードする。第２の処理ノード間交換フェーズの間、第１の処理ノード２０５ａは、第２の演算フェーズの間に計算した結果を第２の処理ノード２０５ｂに渡す。また、第２の処理ノード間交換フェーズの間、第２の処理ノード２０５ｂは、第２の演算フェーズの間に記憶装置２１０からロードしたデータを第１の処理ノード２０５ａに渡す。システム２００は、同様の方法で、残りのフェーズを進む。

図２及び２Ａは、２つの処理ノード２０５ａ、２０５ｂを有するシステム２００を示しているが、いくつかの実施形態では、２つ以上の処理ノードを使用することができる。これらの処理ノードの各々は、記憶装置２１０にアクセスする。いずれか１つの演算フェーズの間に記憶装置とのロード／アンロード動作を実行するように構成された処理ノードの数と、同じ演算フェーズの間に演算を実行するように構成された処理ノードの数との比率は、いかなる値も取ることができる。

図４を参照すると、図４は、４つの処理ノード４０５ａ、４０５ｂ、４０５ｃ、４０５ｄ（本明細書では総称して「処理ノード４０５」と呼ばれる）を含むシステム４００を示している。処理ノード４０５の各々は、記憶装置４１０にアクセスする。記憶装置４１０は単一の記憶ユニット４１０として示されているが、いくつかの実施形態では、記憶装置４１０の一部である複数の記憶ユニットが存在し得、それらの処理ノードの異なる処理ノードは、異なる記憶ユニットにアクセスする。

処理ノード４０５は、共に、多段階プロセスを実施する。多段階プロセスの段階は、多段階プロセスの後続の段階の間に動作を実行するために使用される結果を生成する。所定の演算フェーズの間、処理ノードの各々は、（ｉ）段階のうちの１つと関連付けられた演算を実行するか、或いは、（ｉｉ）記憶装置４１０からのデータのロード及び／又は記憶装置４１０へのデータのアンロードを行うためにデータのロード／アンロード動作を実行するように構成される。所定の処理ノード間交換フェーズの間、それらの処理ノード４０５のうちの関係する処理ノード４０５は、次の演算フェーズの間に処理ノード４０５うちの１つ又は複数がこれらの結果に応じて計算を実行できるようにするために、前の演算フェーズからの結果を交換する。

各演算フェーズの間、処理ノード４０５の少なくとも１つは、今後のフェーズの間の演算に必要なデータを記憶装置４１０からロードすることができるように、データのロード／アンロード動作を実行する。その上、処理ノード４０５の少なくとも１つにデータのロード／アンロードを実行させることにより、前の演算フェーズからの結果をアンロードすることができる。

図４に示されるシステム４００は、異なる多段階プロセスに対して並列処理を実行するために使用することができる。異なるプロセスは、同じ計算を必要とするが、異なる入力データを使用する。例えば、システム４００は、複数のニューラルネットワークの訓練又は動作を同時に実行するために使用することができる。

図５を参照すると、図５は、処理ノード４０５のシステム４００が複数の多段階プロセスを並行して実行するためにどのように動作するかを示す例を示している。表５００は、各フェーズにおいて４つの処理ノード４０５によって実行される動作を説明する。各演算フェーズの間、処理ノード４０５のうちの１つは、データのロード／アンロード動作を実行する。残りの処理ノードは、多段階プロセスの段階と関連付けられた計算を実行する。この例では、１つの処理ノード（処理ノード１）が、ロード／アンロード動作を実行することに専念する。しかし、他の例では、ロード／アンロード動作を実行する処理ノードは、異なる演算フェーズごとに異なり得る。複数の多段階プロセスは、第１、第２、第３及び第４の多段階プロセスと呼ばれる。しかし、これらのプロセスは、同じプロセスの異なる例であり得ることを理解すべきである。言い換えれば、異なるプロセスの対応する段階で実行される計算のタイプは、同じであるが、異なる入力データを使用することができる。

示されるように、第１の演算フェーズの間、処理ノード２は、第３の多段階プロセスの第１の段階の結果を計算する。また、第１の演算フェーズの間、処理ノード３は、第２の多段階プロセスの第２の段階の結果を計算する。また、第１の演算フェーズの間、処理ノード３は、第１の多段階プロセスの第３の段階の結果を計算する。処理ノード３及び４による第２及び第３の段階の演算に必要な値を計算するために以前の段階も行われるが、これらは図５には示されていないことを理解すべきである。また、第１の演算フェーズの間、処理ノード１は、第４の段階と関連付けられた計算を実行するために必要なデータをロードする。

第１の処理ノード間交換フェーズの間、処理ノード１は、第１の演算フェーズでロードしたデータを処理ノード２に送信する。このデータは、処理ノード２によって、第１、第２及び第３のプロセスの第４の段階と関連付けられた処理を実行するために使用される。第１の処理ノード間交換フェーズの間、処理ノード２は、第１の演算フェーズで計算した結果を処理ノード１及び３に送信し、処理ノード３は、第１の演算フェーズで計算した結果を処理ノード１及び４に送信し、処理ノード４は、第１の演算フェーズで計算した結果を処理ノード１及び２に送信する。

第２の演算フェーズの間、処理ノード２、３、４の各々は、前の演算フェーズで処理を実行したプロセスとは異なるプロセスと関連付けられた処理を実行する。処理ノード２は、処理ノード４から受信した結果及び処理ノード１によってロードされたデータを使用して、第１のプロセスの第４の段階の結果を計算する。処理ノード３は、第３のプロセスの第２の段階の結果を計算する。処理ノード３は、第２のプロセスの第３の段階の結果を計算する。また、第２の演算フェーズの間、処理ノード１は、第５の段階と関連付けられた計算を実行するためにデータをロードする。また、処理ノード１は、第１の処理ノード間交換フェーズで他の処理ノードから受信した結果を記憶装置４１０にアンロードする。

第２の処理ノード間交換フェーズの間、処理ノード１は、第２の演算フェーズでロードしたデータを処理ノード３に送信する。このデータは、処理ノード３によって、第１、第２及び第３のプロセスの第５の段階と関連付けられた処理を実行するために使用される。また、第２の処理ノード間交換フェーズの間、処理ノード２は、第２の演算フェーズで計算した結果を処理ノード１及び３に送信し、処理ノード３は、第２の演算フェーズで計算した結果を処理ノード１及び４に送信し、処理ノード４は、第２の演算フェーズで計算した結果を処理ノード１及び２に送信する。

第３の演算フェーズの間、処理ノード２、３、４の各々は、前の演算フェーズで処理を実行したプロセスとは異なるプロセスと関連付けられた処理を実行する。処理ノード２は、処理ノード４から受信した結果を使用して、第２のプロセスの第４の段階の結果を計算する。処理ノード３は、処理ノード２から受信した結果及び処理ノード１によってロードされたデータを使用して、第１のプロセスの第５の段階の結果を計算する。また、第３の演算フェーズの間、処理ノード１は、第１の段階と関連付けられた計算を実行するためにデータをロードする。また、処理ノード１は、第２の処理ノード間交換フェーズで他の処理ノードから受信した結果を記憶装置４１０にアンロードする。

第３の処理ノード間交換フェーズの間、処理ノード１は、第２の演算フェーズでロードしたデータを処理ノード４に送信する。このデータは、処理ノード４によって、第４のプロセスの第１の段階と関連付けられた処理を実行するために使用される。また、第３の処理ノード間交換フェーズの間、処理ノード２は、第３の演算フェーズで計算した結果を処理ノード１及び３に送信し、処理ノード３は、第３の演算フェーズで計算した結果を処理ノード１に送信し、処理ノード４は、第２の演算フェーズで計算した結果を処理ノード１及び２に送信する。この事例では、処理ノード３は、処理ノード４にその結果を送信しないが、その理由は、次の演算フェーズの間の処理ノード４による処理の実行においてこれらの結果が不要であるためであることに留意されたい。

処理は、必要に応じた数のプロセス全体を通じて続けられる。

所定のフェーズの間に単一の処理ノードに必要なデータのロード／アンロード動作を実行させ、残りの処理ノードに演算を行わせることにより、所定のいかなるフェーズの間も、処理ノードの大部分が演算動作に従事しているため、高い効率を達成することができる。単一の多段階プロセスと関連付けられた処理を実行する際に効率を達成することに加えて、技法は、多数の多段階プロセスと関連付けられた処理を実行する際に効率を達成するためにも適用することができる。

図２及び４に関して上記で説明される技法は、ニューラルネットワークの訓練及び動作に適用することができる。この事例では、記憶装置からのロード及び／又は記憶装置へのアンロードが行われるデータは、重み、活性化（ａｃｔｉｖａｔｉｏｎ）、バイアスのうちの１つ又は複数を含む。これらのデータは、必要な際にアクセスできるように記憶装置に格納することができる。

ニューラルネットワークは、機械学習分野や人工知能分野で使用される。ニューラルネットワークは、リンクによって相互接続して互いに対話するノードセットの配列を含む。演算におけるニューラルネットワークの原理は、人間の脳において電気刺激がどのように情報を伝達するかについての情報に基づく。この理由から、ノードは、ニューロンと呼ばれる場合が多い。また、それらのノードは、頂点と呼ぶこともできる。リンクは、エッジと呼ばれる場合がある。ネットワークは、入力データを取り入れることができ、ネットワークの特定のノードは、データに対して動作を実行することができる。これらの動作の結果は、他のノードに渡される。各ノードの出力は、その活性化又はノード値と呼ばれる。各リンクは、重みと関連付けられる。重みは、ニューラルネットワークのノード間の接続性を定義する。ニューラルネットワークが学習できるようにするための多くの異なる技法が知られている。学習は、重みの値を変更することによって行われる。

図６は、ニューラルネットワークのノードの一配列を極端に簡略化したバージョンを示す。このタイプの配列は、学習又は訓練で使用される場合が多く、ノードの入力層、ノードの隠れ層及びノードの出力層を含む。現実的には、各層には多くのノードが存在し、複数の隠れ層が存在する場合が多い。ネットワークは、何百万ものノードを有し、多次元的に接続することができる。入力層の各ノードＮ_ｉは、その出力において、活性化又はノード値を生成することができ、その生成は、そのノードに提供されたデータに対して関数を実行することによって行うことができる。重みの各々は、特定のノードと隠れ層の接続されているノードとの接続性を定義する。入力層から出力されたノード値のベクトルは、隠れ層のノードに対する入力値セットを提供するために、それぞれの重みの行列によってスケーリングされる。ノードＮ_ｈの入力を決定するために適用される重みは、ｗ_０・・・・ｗ_２でラベル付けされる。ある層の出力に重みの行列が適用され、次の層に対する重み付けされた受信データが決定された後、次の層の各ノードは、重み付けされた受信データに対して活性化関数を実行する。活性化関数は、例えば、シグモイド関数であり得る。図６Ａを参照されたい。入力層の各ノードは、少なくとも最初は、隠れ層の各ノードに接続される。隠れ層の各ノードは、提供されたデータに対して活性化関数を実行し、同様に出力ベクトルを生成することができ、その出力ベクトルは、別の重みの行列を適用した後に、出力層のノードＮ_ｏの各々に供給される。次いで、出力層のノードＮ_ｏは、重み付けされた受信データに対して活性化関数を適用して、ネットワークに対する出力値を決定する。

異なる学習手法があるが、各事例では、図６のネットワークを通じて左から右に進む順伝播、全損失の計算及び図６のネットワークを通じて右から左に進む損失の逆伝播がある。次のサイクルでは、各ノードは、逆伝播損失を考慮に入れ、見直された重みセットを生成する。この方法では、ネットワークは、その所望の動作を実行するように訓練することができる。学習プロセスの一部として、重みを更新することに加えて、バイアスなど、活性化を計算するためにノードの各々において適用される他のモデルパラメータを更新することもできる。

図６から理解されるように、ニューラルネットワークの層の各々は、段階を構成し、段階の各々と関連付けられる処理は、前の段階からの出力に依存する（入力層を除く）。従って、ニューラルネットワークの訓練及び動作は多数の段階を含み、各段階は前の段階の結果に依存するため、本発明の実施形態は、ニューラルネットワークの訓練及び動作に適用することができる。

図７を参照すると、図７は、特定の入力を所与としてニューラルネットワーク７００からの出力を計算する際に、図２に示されるシステム２００をどのように適用することができるかを示している。図７に示されるように、ニューラルネットワークは、多数の段階ａ、ｂ、ｃ、ｄを含む。ニューラルネットワークは、図７に示されていないさらなる段階を含み得る。処理ノード２０５ａ、２０５ｂの一方は、次の段階に対して活性化が計算される前に、ある１つの段階から活性化（すなわち、出力）を演算しなければならない。

表７２０は、ニューラルネットワーク７００を走らせる際に、処理ノード２０５ａ、２０５ｂの各々によって実行されるプロセスの表示を含む。表７２０で示される動作は、ニューラルネットワークを走らせる際に実行される処理全体のほんの一部を構成し得るが、そのようなニューラルネットワーク７００の処理を効率的に実行するために、図２に示される処理ノードシステム２００をどのように適用することができるかを示す例を提供する。第１の演算フェーズでは、処理ノード２０５ａは、ニューラルネットワークの層「ａ」の活性化を演算する。層「ａ」の活性化は、ニューラルネットワーク７００の入力値に応じて決定することができる。層「ａ」の活性化は、ニューラルネットワーク７００の前の層（図示せず）からの活性化（以前の演算フェーズで計算されたもの）に応じて決定することができる。また、第１の演算フェーズの間、第２の処理ノード２０５ｂは、記憶装置２１０から重みＷ_ｂをロードする。第２の処理ノード２０５ｂは、層ｂの活性化を計算するためにこれらの重みＷ_ｂを必要とするため、これらの重みＷ_ｂは、後続の演算フェーズの間に第２の処理ノード２０５ｂによって必要とされるデータの一部である。

第１の処理ノード間交換フェーズの間、第１の処理ノード２０５ａは、層ａの活性化を第２の処理ノード２０５ｂに送信する。これらの活性化もまた、層ｂの活性化を計算する際に第２の処理ノード２０５ｂによって必要とされるデータである。

第２の演算フェーズの間、第１の処理ノード２０５ａは、層ａの活性化を記憶装置２１０にアンロードする。これらの活性化は、後続の処理で必要な際に利用できるように、記憶装置２１０に格納される。例えば、ニューラルネットワークを訓練する際、ニューラルネットワークの重みを調整するために使用される逆伝播は、ニューラルネットワーク７００に対して計算された活性化を必要とする。従って、記憶装置２１０に活性化を格納することにより、重みを調整するために逆伝播を行う際にこれらの活性化をアンロードすることができる。また、第２の演算フェーズの間、第１の処理ノード２０５ａは、層ｃの活性化を計算する際に使用するために必要であるため、重みＷ_ｃをロードする。また、処理ノード２０５ａは、層ｃの活性化を計算するために必要な層ｃの任意のバイアスを記憶装置２１０からロードすることができる。

第２の演算フェーズの間、第２の処理ノード２０５ｂは、層ｂの活性化を演算する。第２の処理ノード２０５ｂは、第１の処理ノード間交換フェーズの間に第１の処理ノード２０５ａから受信した層ａの活性化から並びに第１の演算フェーズの間に記憶装置２１０からロードした重みＷ_ｂ及びバイアスから、層ｂの活性化を演算する。

第２の処理ノード間交換フェーズの間、第２の処理ノード２０５ｂは、第１の処理ノード２０５ａに層ｂの活性化を送信する。これらの活性化は、第１の処理ノード２０５ｂによって、層ｃの活性化を計算する際に必要とされる。

第３の演算フェーズの間、第１の処理ノード２０５ａは、層ｃの活性化を演算する。第１の処理ノード２０５ａは、第２の処理ノード間交換フェーズの間に処理ノード２０５ｂから受信した層ｂの活性化に応じて、これらの活性化を演算する。また、第１の処理ノード２０５ｂは、第２の演算フェーズの間に記憶装置２１０からロードした重みＷ_ｃ及び任意のバイアスに応じて、層ｃの活性化を演算する。

また、第３の演算フェーズの間、第２の処理ノード２０５ｂは、記憶装置２１０から重みＷ_ｄをロードする。また、第２の処理ノード２０５ｂは、層ｄの活性化を計算するための任意のバイアスもロードする。また、第３の演算フェーズの間、第２の処理ノード２０５ｂは、層ｂの活性化を計算するために使用された重みＷ_ｂをアンロード又は削除する。これらの重みＷ_ｂはもはや不要であるため、第２の処理ノード２０５ｂは、それらの重みＷ_ｂをメモリから取り除いてスペースを節約する。

また、第３の演算フェーズの間、第２の処理ノード２０５ｂは、層ｂの活性化を記憶装置２１０にアンロードする。これらの活性化は、後続の処理で必要な際（例えば、逆伝播を実行する際）に利用できるように、記憶装置２１０に格納される。

システム２００を使用した処理は、ニューラルネットワーク７００からの最終的な出力が得られるまで、ニューラルネットワークの層を通じてこの方法で続けることができる。

従って、システム２００は、あらゆる演算フェーズの間に層の活性化を計算するために処理ノードの一方に処理を実行させることによって、訓練又は動作目的で、ニューラルネットワークをより急速に走らせることができる。

いくつかの実施形態では、システム２００は、図２Ａに示される方法で、ニューラルネットワークの訓練又は動作に適用することができる。これは、図７Ａに示されており、図７Ａでは、第１の処理ノードは、活性化の演算に専念し、第２の処理ノードは、ロード／アンロード動作を含む準備の実行に専念する。表７３０には、プロセッサの各々によって実行される動作が示されている。

図４に示されるシステム４００もまた、ニューラルネットワークに対する処理（動作又は訓練）を実行するために使用することができる。

図８を参照すると、図８は、ニューラルネットワークを動作させる際にシステム４００の処理ノード４０５の各々によって実行することができる動作を示す例示的な表８００を示している。この例では、図５に関して上記で論じられる異なる多段階プロセスの各々は、同じニューラルネットワークに供給された異なる入力データセットの使用に対応する。従って、多段階プロセスの各々は、ニューラルネットワークの単一の反復である。図７及び７Ａと同様に、各段階によって生成される結果は活性化であり、活性化を計算するために記憶装置からロードされるデータは、重みを含む。図８では、演算段階３において、処理ノード１は、ニューラルネットワークの第４の反復を実行するために使用される入力データを記憶装置からロードする。この入力データは、層１の活性化と同じものであり得、処理ノード４は、このデータを修正しない。

上記の例の各々において、特定の演算フェーズの間、演算を実行する処理ノードとデータのロード／アンロード動作を実行する処理ノードとの間には、Ｎ：１の比率がある。しかし、他の実施形態では、この比率は異なり得る。例えば、任意の所定の演算フェーズの間、演算プロセッサとロード／アンロードプロセッサとの間には、Ｎ：Ｍの比率があり得、Ｎ及びＭは、いかなる正の整数でもあり得る。上記に見られるように、処理ノードのシステムにおける異なる処理ノードは、異なる入力データセットに対して同じ動作を実行するように構成することができる。その際、各処理ノードは、異なる結果を生成する。これは、データ並列処理と呼ぶことができる。そのようなシステムでは、処理の結果は、処理ノードの間で共有することができ、その結果、システムの各処理ノードは、各処理ノードによって計算された結果の平均を表し得る最終結果にアクセスすることができる。そのようなプロセスの応用の１つは、ニューラルネットワークの訓練であり、処理ノードグループの各処理ノードは、逆伝播の間、異なる訓練データセットに基づいて、特定の層の重みの新しい値を決定する。次いで、各層の更新済みの重み（又は重み更新）は、処理ノードセットの間で共有され、その結果、分散訓練の利点を得ることができる。コレクティブは、処理ノード間で更新済みの重み／重み更新を共有するために使用することができるデータを共有するためのルーチンである。

図１４を参照すると、図１４は、ニューラルネットワークを訓練するための分散アーキテクチャの概略ブロック図を示している。訓練データ源１００が提供される。この訓練データ源１００は、訓練しているニューラルネットワークモデルに適用可能な訓練データを保持することができるデータベース又は他の任意の種類のデータストアであり得る。ニューラルネットワークモデルによる処理は、それ自体が、複数の処理ノード１１０ａ、１１０ｂ、１１０ｃなどにわたって分散される。図１４では、３つのユニットのみが示されているが、いかなる数の処理ノードも利用できることが容易に理解されよう。各処理ノード１１０ａ、ｂ、ｃは、訓練データ源１００から訓練データのバッチを受信する。各処理ノード１１０ａ、ｂ、ｃは、モデルを定義するパラメータ１１２ａ、１１２ｂ、１１２ｃのセットを保持する。訓練データの受信バッチは、計算関数１１４の現行のパラメータセットと併せて処理され、計算関数の結果は、いわゆるデルタを生成するために使用され、デルタは、訓練データのバッチ及び現行のパラメータセットに計算関数を適用した結果として生じた、オリジナルのパラメータと新しいパラメータとの差を表す。多くのニューラルネットワークでは、これらのパラメータは、「重み」と呼ばれ、従って、デルタ値は、「デルタ重み」と呼ばれる。そうでない場合は、デルタ重みは、勾配として知られている。図１４では、重みは、１１２ａ、ｂ、ｃでラベル付けされ、デルタ重みは、１１６ａ、ｂ、ｃでラベル付けされている。実際には、重み及びデルタ重みは、処理ノードによってアクセス可能な適切なストアに格納されることが理解されよう。重み及びデルタ重みをローカルメモリに保持することができる場合は、訓練プロセスは、よりはるかに効率的なものになる。

図１４のアーキテクチャの目標は、３つの別個のモデルを訓練することではなく、単一のモデルを分散して訓練することである。従って、目的は、各処理ノードにおいてモデルパラメータ（又は重み）を単一の共通のセットに収束させることである。任意の特定の重みセットで始め、各処理ノードにおいて受信された訓練データのバッチが同一ではないと想定すると、各処理ノードにおいて各計算関数によって生成されるデルタ重みにばらつきが生じることになる。従って、必要なのは、訓練データのバッチの各反復の後に処理ノードにわたってデルタ重みを集計するための方法である。これは、図１４に図示されており、組合せ関数１１８は、各処理ノードからデルタ重みを受信し、総和又は平均関数など、デルタ重みをリデュースする数学関数を実行する。次いで、組合せ関数１１８の出力が各処理ノード内の組合せ回路１２０ａ、１２０ｂ、１２０ｃにそれぞれ戻される。従って、新しい重みセットは、オリジナルの重みと組合せ関数１１８からの組み合わされた出力との組合せとして生成され、新しい重み１１８ａ、１１８ｂ、１１８ｃは、ローカルメモリに戻して格納される。次いで、訓練データの次のバッチが各処理ノードに供給され、プロセスは複数回繰り返される。処理ノードの開始重みが同じである場合は、各反復の後、それらの重みは、一貫した方法で、同じ新しい値に更新される。デルタ重みは、組合せ関数１１８に供給され、組合せ関数１１８でリデュースされ、次いで、それらのリデュース形態で処理ノードの各々に供給され、オリジナルの重みと組み合わせることができる。

処理ノード間でデータの交換を効率的に実施できる方法の１つは、通信コレクティブの使用によるものであり、通信コレクティブは、コンピュータにおいてデータを処理する際に一般的に使用されるルーチンである。それらのコレクティブは、複数の異なるプロセスにわたってデータの共有及び処理を可能にするルーチンであり、複数の異なるプロセスは、同じ処理ノード上で実行されているものであっても、異なる処理ノード上で実行されているものであってもよい。例えば、１つのプロセスがデータストアからデータを読み取る場合、そのデータを他のプロセスと共有するために、「ブロードキャスト」プロセスを使用することができる。別の例は、特定の関数の結果が複数のプロセスにおいて必要な際である。「リダクション」は、複数のプロセスの各々からのデータ値に演算関数の適用を必要とした結果である。「ギャザ」及び「スキャタ」コレクティブは、複数のデータアイテムを取り扱う。あるコレクティブは、機械学習アプリケーションの処理においてますます重要になった。

ＭＰＩ（メッセージパッシングインタフェース）は、多くの並列演算アーキテクチャに適用することができるメッセージパッシング規格である。ＭＰＩは、機械学習に適用可能な多くのコレクティブを定義する。そのようなコレクティブの１つは、「オールリデュース」と呼ばれる。オールリデュース動作は、異なるソースプロセスからの同じサイズの複数のデータ値に作用する演算関数の結果を受信プロセスで提供できるようにする。受信プロセスは、ソースプロセスのうちの１つであり得ることや、複数の受信プロセスが存在し得ることに留意されたい。オールリデュースコレクティブは、複数のソースプロセスからのデータ値をリデュースし、その結果をすべてのソースプロセス（リデュースされた結果の受信プロセスとして動作する）に分散する。ＭＰＩ規格によれば、オールリデュースコレクティブは、リデュースコレクティブですべてのソースプロセスからのデータ値をリデュースし（例えば、プロセスのうちの１つで）、次いで、各ソースプロセスに結果をブロードキャストすることによって実施することができる。

図１４Ａは、５つの処理ノードＮ_０・・・Ｎ_５のライン接続トポロジにおいてオールリデュースコレクティブをどのように実施できるかを示す概略図である。これらの処理ノードは、組合せ関数が分散される図１４の処理ノードに相当し得る。処理ノードは、ライン構成で接続されるように示されており、各処理ノードは、「順方向」リンクＬ_Ｆ及び「逆方向」リンクＬ_Ｂによってその近隣の処理ノードに接続される。図に示されるように、方向表現が含意するように、順方向リンクは、図１４Ａでは、左から右に処理ノードを接続し、逆方向リンクは、図１４Ａでは、右から左に処理ノードを接続する。各処理ノードは、２５０で指定される処理能力及び２７５で指定される格納能力を有する。また、各処理ノードは、リンクＬ_Ｆ／Ｌ_Ｂを介してその近隣の処理ノードとの接続を可能にする１つ又は複数のリンクインタフェースも有する。

その上、逆方向リンクは、終点ノードにおいて完全にリデュースされた結果が得られるまでは、ブロードキャストには利用されない。しかし、部分ベクトルが大きい場合は、始点ノードがその部分を送り終えるよりかなり前に、結果の先頭部分が始点ノードに返され、従って、すべての順方向及び逆方向リンクにおいて活動の実質的なオーバーラップが存在する。

このアルゴリズムの修正（小さな改善を表す）においては、ラインの各終点の処理ノードは、中央ノードに向けてそれらの部分を送信し始め、中央ノードにおいてリダクションを完了することができる。その事例では、結果は、ラインの終点に至るまで順方向に進み続けると、終点ノードに戻る。このシナリオでは、順方向リンクと逆方向リンクの両方において、例えば、Ｎ_２とＮ_３との間や、Ｎ_３とＮ_４との間など、移動方向の反転を伴うことになることに留意されたい。ラインを閉じてリング状にした場合（逆方向リンクと順方向リンクの両方において最終ノードＮ_５を初期ノードＮ_０に接続することによって）は、パイプラインアルゴリズムは、同じ方向においてリダクション及びブロードキャストを直列化することができ、その結果、双方向性リンクによって形成される２つの論理リングの各々は、半分のデータに対して独立して動作することができる。各部分が２つの部分に分かれている図１４Ｂを参照されたい。最初の半分ΔＡは、順方向リンクにおいてリデュースされ（図１４Ａのように）、Ｎ_５とＮ_０との間の接続レグにおいてブロードキャストされる。ベクトルの残りの半分ΔＢは、逆方向リンクにおいてリデュースされ、次いで、逆方向リンクの接続リングにおいてブロードキャストされる。

二次元のリングを使用する際、代替の手法は、リデューススキャタコレクティブに続いてオールギャザコレクティブを使用して、オールリデュースを実施することである。Ｊａｉｎ及びＳａｂｈａｒｗａｌが著した「ＯｐｔｉｍａｌＢｕｃｋｅｔＡｌｇｏｒｉｔｈｍｓｆｏｒｌａｒｇｅＭＰＩｃｏｌｌｅｃｔｉｖｅｓｏｎｔｏｒｕｓｉｎｔｅｒｃｏｎｎｅｃｔｓ」（ＩＣＳ’１０、６月２～４日、筑波）と称する論文は、円環相互接続処理ノードの処理ノード間の双方向リンクを想定した、オールギャザ、リデューススキャタ及びオールリデュースコレクティブに対するバケットベースのアルゴリズムを提示している。この手法は、各ステップにおいて取り扱われる複数のデータ値（フラグメント）があるということに基づいて動作する。リデューススキャタコレクティブでは、各プロセスは、初期の部分ベクトルで始める。ここでのプロセスへの言及は、処理ノードにおいて行われるプロセスに対するものであると想定される。部分ベクトルは、複数の要素又はフラグメントに分割することができる。すべてのプロセスの対応する要素はリデュースされ、次いで、これらのリデュース済みの要素は、プロセスにわたって分散される。オールギャザコレクティブでは、すべてのプロセスが、他のすべてのプロセスからすべての要素を受信する。リデューススキャタコレクティブは、すべての部分をリデュースし、それぞれのノードにおいて各リダクションを格納する（図１５を参照）。オールリデュースコレクティブ動作は、リデューススキャタコレクティブに続いてオールギャザコレクティブ動作を実行することによって実施することができる。

処理ノード間でデルタ重みを交換するために使用することができるオールリデュースコレクティブは、図１５に示される。図１５は、開始状態Ｓ１での４つの処理ノードの各々における部分値又は「部分」Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３の集合（ベクトル）を示す。この環境では、処理ノードは、処理ノードのネットワークの処理ノードである。各処理ノードＮ_０、Ｎ_１、Ｎ_２、Ｎ_３は、４つの「対応する」部分Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３を有することに留意されたい。すなわち、各部分は、処理ノードｎ上のそのベクトルにおけるＰ_０（ｎ）が処理ノードｎ＋１上のそのベクトルにおけるＰ_０（ｎ＋１）と同じ位置を有するようなベクトルの位置を有する。添え字（ｎ）は、その部分が存在する処理ノードを示すために使用される（従って、Ｐ_０（０）は、処理ノードＮ_０上の部分Ｐ_０である）。リデューススキャタパスでは、対応する部分がリデュースされ、処理ノードのうちの１つにリダクションが提供される。例えば、部分Ｐ_０（０）、Ｐ_０（１）、Ｐ_０（２）、Ｐ_０（３）は、（ｒ_０に）リデュースされ、処理ノードＮ_０に配置される。同様に、部分Ｐ_１（０）、Ｐ_１（１）、Ｐ_１（２）、Ｐ_１（３）は、（ｒ_１に）リデュースされ、処理ノードＮ_１に配置される。そして以下同様に続き、中間状態Ｓ２では、各処理ノードは、リダクションｒ_０、ｒ_１、ｒ_２、ｒ_３のうちの１つを有する。説明されるように、リダクションは、任意の組合せ関数ｆ（Ｐｉ_０ ^３）によるものであり得、独立演算子（例えば、ｍａｘ）又は結合演算子＝Ｐ_１（Ｎ_０）^＊Ｐ_１（Ｎ_１）^＊Ｐ_１（Ｎ_２）^＊Ｐ_１（Ｎ_３）が含まれ得る。次いで、オールギャザパスでは、状態Ｓ３を起動させるために、各リダクションがすべての処理ノードに提供され、ここでは、各処理ノードは、すべての４つのリダクションを保持する。Ｓ１では、「対応する」部分（例えば、Ｐ_０（０）、Ｐ_０（１）、Ｐ_０（２）、Ｐ_０（３））はすべて異なり得るのに対して、状態Ｓ３では、各リダクション（例えば、ｒ_０であり、ｒ_ｉ＝ｆ｛（Ｐ_ｉ（０），Ｐ_ｉ（１），Ｐ_ｉ（２），Ｐ_ｉ（３））｝）はすべての処理ノードにおいて同じであることに留意されたい。機械学習では、部分値Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３の集合はベクトルである。部分（例えば、更新済みの重み）のベクトルは、訓練の間にモデルの各パスにおいて生成される。状態Ｓ３での各処理ノードにおけるリダクションｒ_０、ｒ_１、ｒ_２、ｒ_３は、全リダクションベクトルである。機械学習の環境では、各部分は、モデルのパラメータに対する更新デルタの集合であり得る。その代替として（本明細書ではさらなる説明が行われない配列では）、各部分は、更新済みのパラメータであり得る。

従って、記述されるように、オールリデュース動作は、リデューススキャタ動作と、それに続くオールギャザ動作からなる。リデューススキャタ動作の間、各ノードは、部分の異なる要素を交換する。リデューススキャタが完了すると、すべてのノードは、最終的なオールリデュースのｎ分の１を有する。オールギャザの間、各ノードは、ｎ－１ステップ後にすべてのノードがデータのフルセットを有するようになるまで、最終的なオールリデュースの追加の１／ｎを受信する。

図１６Ａ及び１６Ｂは、６つの「仮想」ＩＤリングを使用するリデューススキャタ／オールギャザの例を示す。これらは、本明細書では、「論理」リングとも呼ばれる。図１６Ａは、複数の仮想リングにおける部分のリダクションを示す概略図である。各部分は、６つのフラグメントに分けられる。図１６Ａでは、大文字Ｒ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌの各々は、各処理ノードで格納される部分の異なるフラグメントを示す。文字は、互いにリデュースする予定の対応するフラグメントを示し、それらのフラグメントに対する「仮想」又は「論理」リングを定義する。図１６Ａを見ると、部分Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３、Ｐ_４、Ｐ_５の各々における「Ｒ」フラグメントは、結果ベクトル（ＲΣＡ_０ ^５）の単一のフラグメントにリデュースされる。Ｙ、Ｇ、Ｂ、Ｐ、Ｌフラグメントに対しても同様である。

図１６Ｂは、タイミング図を示し、水平軸上の時間は、オールリデュースプロセスの各ステップにおけるデータ交換及び演算を示す。図１６Ａ及び１６Ｂでは、オールリデュースプロセスは、リデューススキャタフェーズと、それに続くオールギャザフェーズによって遂行される。

図１６Ａ及び１６Ｂの表記法は以下の通りである。各部分は、Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３、Ｐ_４、Ｐ_５で示される。プロセスの開始時、各部分は、それぞれの処理ノードＮ_０、Ｎ_１、Ｎ_２、Ｎ_３、Ｎ_４、Ｎ_５上に格納されている。各フラグメントは、リデュースされると考えられる仮想リングにおけるそのフラグメント及びその位置に従ってラベル付けされる。例えば、ＲＡ_０は、処理ノードＮ_０－Ｎ_１－Ｎ_２－Ｎ_３－Ｎ_４－Ｎ_５によって形成される仮想リングの第１のフラグメントであるため、部分Ｐ_０のＲフラグメントを示す。ＲＡ_１は、処理ノードＮ_１で計算されたＲフラグメントを示し、その仮想リングの第２の位置にある。ＹＡ_０は、処理ノードＮ_１で計算されたＹフラグメントを示す。「０」の添え字は、それがその仮想リングの第１のフラグメントであることを示し、Ｙリングは、Ｎ_１－Ｎ_２－Ｎ_３－Ｎ_４－Ｎ_５－Ｎ_０である。具体的には、Ａに付けられる添え字は、仮想リングを反映するものであり、物理的な処理ノード（又は部分）には相当しないことに留意されたい。図１６Ａは、順方向リンクの仮想リングのみを示すことに留意されたい。図１６Ｂは、逆方向リンクにおいて同等のプロセスが起こっていることを示し、フラグメントは、Ｂとして示されている。

ステップ１では、各仮想リングの第１のフラグメント（Ａ_０）は、その処理ノードから次の隣接する処理ノードに転送され、その処理ノードでの対応するフラグメントと併せてリデュースされる。すなわち、ＲＡ_０は、Ｎ_０からＮ_１に移動し、ＲＡ_１と併せてリデュースされ、ＲＡ_０，１を形成する。０，１の表記法は、仮想リングの第１及び第２のフラグメントのリダクションによってフラグメントが形成されることを示す。同じステップにおいて、各仮想リングのＡ_０フラグメントが同時に送信されることに留意されたい。すなわち、Ｎ_１とＮ_２との間のリンクはＹＡ_０を送信するために使用され、Ｎ_２とＮ_３との間のリンクはＧＡ_０を送信するために使用されるなど、以下同様である。次のステップでは、対応するリデュース済みのフラグメントは、順方向リンク上でそれらの次の隣接する処理ノードに送信される。例えば、ＲＡ_０，１は、Ｎ_１からＮ_２に送信され、ＹＡ_０，１は、Ｎ_２からＮ_３に送信される。明確にするため、図１６Ａにおいてすべてのフラグメントに番号が付けられているわけではないことに留意されたい。フラグメント及び番号のフルセットは、図１６Ｂに示されている。このプロセスは、５つのステップにわたって続けられる。５つのステップの後には、各処理ノードにすべてのフラグメントのリダクションが存在する。第５のステップの終了時には、このリダクションは、そのフラグメントの対応する各リングの最後の処理ノードにある。例えば、Ｒリダクションは、処理ノードＮ_５にある。

オールギャザフェーズの開始は、各仮想リングにおける最後の処理ノードから最初の処理ノードへの送信によって始まる。従って、Ｒフラグメントの最終的なリダクションは処理ノードＮ_５で終了し、オールギャザフェーズの第１のステップの準備が整う。Ｙフラグメントの最終的なリダクションは相応に処理ノードＮ_０で終了する。オールギャザフェーズの次のステップでは、リデュース済みのフラグメントは再び、それらの次の隣接する処理ノードに送信される。従って、完全にリデュースされたＲフラグメントは、ここではＮ_２にあり、完全にリデュースされたＹフラグメントはここではＮ_３にあるなど、以下同様である。この方法では、各処理ノードは、オールギャザフェーズの終了時には、部分の完全にリデュースされたすべてのフラグメントＲ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌを有するようになる。

第２の発明の実施形態によれば、処理ノードグループを適用して、新しい方法で、データ並列処理の実行及びその処理の結果の交換を行うことができる。グループの各処理ノードは、少なくとも２つの異なるセットに属する。

図９を参照すると、図９は、処理ノードのグループ９００の例を示しており、グループ９００の各処理ノードは、２つ（この例では、行と列で示されている）の処理ノードセットに属する。例えば、ＩＰＵ０は、行１（第１のセット９２０）と列１（第２のセット９３０）に属する。図９では、各処理ノードが属するセットは、行及び列として示されているが、他の実施形態では、グループ９００は、そのような格子フォーマットで物理的に配列される必要はなく、ノードの物理的な配列は異なり得る。処理ノードの各々はＩＰＵとして示されているが、本発明はそれに限定されない。

図９の処理ノードの各々は、提供される異なる入力データセットに基づいてデータの異なる出力アレイを計算するように構成される。データの出力アレイの各々は、図９に示されている。例えば、処理ノードＩＰＵ０は、アレイ９１０を格納する。機械学習環境では、各入力データセットは、異なる訓練データセットであり得、出力データの各アレイは、訓練データを使用して訓練を実行する際に生成される異なる更新済みの重みのセット又は異なるデルタ重みセットであり得る。

個別に計算された出力アレイの各々に依存する単一の出力アレイが各処理ノードに存在するように、出力アレイを交換するために実行されるコレクティブ動作は、３つのステップを伴うものと理解することができる。

第１のステップとして、各列では、その列の処理ノードの各々の間で、リデューススキャタ動作が実行される。図９Ａは、リデューススキャタ動作が実行された後に結果として生じたグループ９００を示す。示されるように、リデューススキャタ動作を実行した後、特定の列の処理ノードの各々は、最後には、アレイのサブセットに対するリデュース済みの値を有するようになる。各列では、その列の各処理ノードは、アレイの異なる位置に値のサブセットを格納する。各行では、その行の各処理ノードは、アレイの同じ位置に値のサブセットを格納する。

第２のステップとして、各行では、その行の処理ノードの各々の間で、オールリデュース動作が実行される。第１のステップに続いて、所定の行の処理ノードの各々は、アレイ全体に対する値のサブセットのみを含むため、所定の行に対して実行されるオールリデュース動作は、その行に対するアレイ値の各サブセットのみを使用して実行される。オールリデュース動作の結果は、図９Ｂに示されている。オールリデュース動作を実行した後、各行では、それぞれの行の各処理ノードは、同じ値のサブセットを有する。

第３のステップとして、各列では、それぞれの列の処理ノードの各々の間で、オールギャザ動作が実行される。オールギャザ動作の結果は、図９Ｃに示されている。オールギャザ動作を実行した後、グループ９００の各処理ノードは、そのアレイに同じデータセットを有する。

図９～９Ｃに示される例は、この原理を二次元でのみ示している。言い換えれば、処理ノードの各々は、２つの処理ノードセットにのみ属する。しかし、他の実施形態では、処理ノードの各々は、２つ以上の処理ノードセットに属する。

従って、より一般的には、各処理ノードは、１つ又は複数のリデューススキャタコレクティブに加わり、各リデューススキャタコレクティブは、それぞれの処理ノードが属する異なる処理ノードセット間で実行される。システムの任意の所定の処理ノードに対し、その処理ノードは、それが属するセットに共通している唯一の処理ノードである。所定の処理ノードに対し、そのセットに属する他の処理ノードはすべて、一度しか現れない。

１つ又は複数のリデューススキャタコレクティブに続いて、各処理ノードは、オールリデュースコレクティブに参加する。オールリデュースコレクティブは、さらなる処理ノードセット間で実行される。さらなるセットの各々は、リデューススキャタコレクティブに対して使用される異なるセットとは異なる。任意の所定の処理ノードに対し、その処理ノードに対するさらなるセットのノードの各々は、リデューススキャタコレクティブに対して使用されたその処理ノードに対する異なるセットの１つには属さない。

オールリデュースに続いて、各処理ノードは、一連の１つ又は複数のオールギャザコレクティブに加わる。オールギャザコレクティブの数は、リデューススキャタコレクティブの数と同じである。オールギャザコレクティブの各々は、リデューススキャタコレクティブに対して使用されたものと同じセットを使用して実行される。リデューススキャタとオールギャザに対するセットの使用順番は、逆になる。例えば、所定の処理ノードに対し、その処理ノードが第１、第２及び第３の処理ノードセットに対してその順番でリデューススキャタコレクティブに加わる場合は、オールギャザコレクティブを実行する際、その同じ処理ノードは、第３、第２及び第１の処理ノードセットに対してその順番でオールギャザコレクティブに加わる。

上記のスキームを説明する方法の１つは、システムの処理ノードがすべて多次元格子に配列されると見なすことである。この２Ｄ例は、図９～９Ｃに示されている。しかし、より多くの次元数が可能である。そのような多次元格子に処理ノードを物理的に配列する必要はないが、そのような格子は、コレクティブがどのように実行されるかを理解するために視覚化する上で役に立つことが理解されている。ｎ次元を有する格子では、リデューススキャタコレクティブは、それらの次元の最初のｎ－１の次元にわたる処理ノードの各ラインに対して実行され、リデューススキャタコレクティブは、各次元に対して順番に実行される。次いで、ｎ番目の次元の処理ノードのラインの各々に対して、オールリデュースコレクティブが実行される。次いで、最初のｎ－１の次元にわたる処理ノードの各ラインに対して、オールギャザコレクティブが実行され、オールギャザコレクティブが実行される次元の順番は、リデューススキャタコレクティブに対する次元の順番とは逆になる。

新しいコレクティブスキームは、処理ノードのシステムに対する１つ又は複数の処理ノード間交換フェーズにおいて実施される。これらの１つ又は複数の交換フェーズは、システムの処理ノード間のプリコンパイル済みの同期バリアに続いて始まる。プリコンパイル済みの同期バリアは、先行する演算フェーズからこれらの１つ又は複数の交換フェーズを分離する。

第３の発明の実施形態によれば、多数の処理ノードを適用して並列処理を実行し、モデルを更新する際、各処理ノードが独立してモデル全体を更新する必要なくモデルを更新するために、新しい方法が提供される。これにより、モデルの更新に必要な処理量が低減され、その上、並列処理システムにおけるモデル更新プロセスによって必要なメモリ量が低減される。

図１７Ａ及び１７Ｂを参照すると、図１７Ａ及び１７Ｂは、処理ノード１７１０のシステム１７２０に対する経時的なデータの交換及び更新を示している。システム１７２０の処理ノード１７１０は、列に配列して示されている。図では、システム１７２０は、複数回示されており、システム１７２０の各インスタンスは、データ処理ノード１７１０のメモリに格納されたデータがモデル更新プロセスにわたってどのように変化するかを示している。

最初に、処理ノード１７１０の各々は、パラメータの更新のフルセットを得なければならない。各更新セットは、異なる入力データセットを使用して得られる。いくつかの実施形態では、入力データセット及び格納されたパラメータを使用して、処理ノード１７１０の各々は、モデルに対する更新セットを計算する。この事例では、各処理ノード１７１０は、同じモデルパラメータのフルセットを格納しており、異なる更新セットを導出するために、それらのモデルパラメータと共に異なる入力データセットを使用する。他の実施形態では、処理ノード１７１０は、モデルパラメータから更新を決定する他の処理ノードから、モデルに対する更新セットを受信する。いくつかの実施形態では、これらのハイブリッドを実行することができ、各処理ノード１７１０は、更新の一部を導出し、別の処理ノード１７１０から更新の残りを受信する。

図１７Ａに示される次の段階では、処理ノード１７１０の各々は、パラメータの更新のフルセットを格納する。各処理ノード１７１０によって格納される更新は、パラメータの各々の更新を含む。処理ノード１７１０は、パラメータのフルセットを格納する必要はない。代わりに、各処理ノード１７１０は、更新するパラメータのみを格納する。処理ノード１７１０が他の任意のパラメータを格納する場合は、これらは、削除するか又は記憶装置にアンロードすることができる。

次いで、処理ノード１７１０間で更新を交換するために、処理ノード１７１０の各々の間で、リデューススキャタコレクティブが実行される。オールリデュースコレクティブについて説明する図１５、１６Ａ及び１６Ｂから理解されるように、リデューススキャタに続いて、各処理ノード１７１０がリデュース済みの更新のフルセットのサブセットを有するように、リデューススキャタは、更新の交換及びリダクションを伴う。リデューススキャタに続いて処理ノード１７１０のいずれか１つによって保持される更新は、各処理ノード１７１０によって保持されるパラメータの一部分のみの更新を含み、各処理ノード１７１０は、処理ノード１７１０によって保持されるパラメータの異なる部分の更新を保持する。

リデューススキャタに続いて、処理ノード１７１０のシステム１７２０の各処理ノード１７１０は、更新済みのパラメータを導出するために、導出した更新をパラメータに適用する。このプロセスの結果は、図１７Ｂに示されている。図に見られるように、各処理ノード１７１０は、パラメータの一部分のみの更新を格納するため、各処理ノード１７１０は、パラメータの対応する部分のみを更新する。しかし、処理ノード１７１０間では、更新済みのパラメータのフルセットが導出される。パラメータの更新に続いて、パラメータ更新はもはや必要でなく、ノード１７１０から削除するか又はオフロードすることができる。

更新済みのパラメータの計算に続いて、処理ノード１７１０間で更新済みのパラメータを共有するために、システム１７２０の処理ノード１７１０間でオールギャザが実行される。オールリデュースコレクティブについて説明する図１５、１６Ａ及び１６Ｂから理解されるように、オールギャザの効果は、オールギャザに続いて、処理ノード１７１０の各々が更新済みのパラメータのフルセットを格納できるように、更新済みのパラメータを分散することである。

従って、第３の発明の実施形態は、すべてのプロセッサがモデルパラメータの各々を独立して更新する必要はなく、むしろ、モデルの更新を分散方式で実行することができるという利点を有する。

図１７Ａ及び１７Ｂに示されるように、いくつかの実施形態では、ノード１７１０の各々は、特定のパラメータを更新するために使用される追加の情報（状態情報と呼ばれる）を格納することもできる。各情報状態セットは、システム１７２０のノード１７１０のうちの１つによって保持及び更新が行われ、パラメータの関連部分を更新するために使用される。更新とは異なり、各状態情報セットは、他の状態情報セットとは無関係に導出及び更新が行われる。言い換えれば、各処理ノード１７１０は、全状態情報の一部分（すなわち、パラメータ更新ステップの間にパラメータを更新するためにそのノード１７１０によって使用される状態情報の部分）のみを維持する。

図１７Ａに示されるように、最初に、各処理ノード１７１０は、全状態のサブセットを格納する。処理ノード１７１０は、それらの間で、全パラメータセットを更新するために使用される全状態を格納する。更新の決定及び更新のリデューススキャタ全体を通じて、状態は、未使用且つ不変のままである。リデューススキャタに続いて、各処理ノード１７１０は、図１７Ｂに示されるように、そのそれぞれの状態を更新し、リデューススキャタに続いて受信した更新と共に、そのそれぞれの更新済みの状態を使用して、パラメータの一部分を更新する。

従って、状態情報が使用される実施形態では、各処理ノード１７１０は、全状態の一部分を維持するだけでよい。パラメータのすべてを更新するために各処理ノード１７１０が全状態セットを維持する必要はない。全状態セットの維持は、ノード１７１０の格納スペース及び処理資源に関して負担となることになる。

いくつかの実施形態では、ニューラルネットワークを訓練するために、並列システムにおいてモデルを更新するための新しい方法を適用することができる。この事例では、更新されるパラメータは、ニューラルネットワークのパラメータ（すなわち、重み、任意に、バイアス）である。更新は、訓練の逆伝播段階の間に導出されるニューラルネットワークの勾配である。

例示的なニューラルネットワークでは、処理ノード１７１０の各々は、ニューラルネットワークの１つ又は複数の出力値を決定するために、訓練データと共に、ニューラルネットワークのパラメータを使用する。これらの出力値は、訓練データ及び現行のパラメータと関連付けられた誤差又は損失を決定するために、ニューラルネットワークのラベルと比較される。誤差又は損失は、逆伝播プロセスにおいて、勾配セットを決定するために使用される。ニューラルネットワークの各処理ノード１７１０は、同じパラメータと共に異なる訓練データセットを使用するため、各ノード１７１０は、異なる勾配セットを導出する。

勾配のセットの計算に続いて、システム１７２０の各処理ノード１７１０は、勾配を交換するために、リデューススキャタコレクティブに参加するように構成される。これに続いて、各処理ノード１７１０は、リデューススキャタから得られるリデュース済みの勾配のサブセットを有するようになる。次いで、各処理ノード１７１０は、そのリデュース済みの勾配のサブセットを適用して、パラメータの対応する部分を更新する。パラメータ更新に続いて、各処理ノード１７１０が最後にはニューラルネットワークに対する更新済みのパラメータのフルセットを有するように、オールギャザが実行される。

ニューラルネットワークの訓練は、システム１７２０によって、多数の訓練反復で実行され、図１７Ａ及び１７Ｂに示されるプロセスは、ニューラルネットワークに対する単一の訓練反復を示す。図１７Ｂに示される最終状態に続いて、各処理ノード１７１０は、新しい訓練データセット及び更新済みのパラメータを使用して、再び適用される新しい勾配セットを導出し、再びパラメータを更新することになる。

ニューラルネットワークのパラメータの更新は、「最適化ステップ」と呼ばれる。最適化ステップは、異なる方法で実行することができる。最適化の一部のタイプ（確率的勾配降下法など）は、ステートレスである。この事例では、モデルパラメータに適用される変更は、勾配の値に等しい。この事例では、各処理ノード１７１０において、ニューラルネットワークに対する更新済みの重みが以下の通り計算される。
式中、Ｗ_ｉは、ｉ番目の訓練反復後の重みであり、Ｗ_ｉ＋１は、ｉ＋１番目の訓練反復後の重みであり、ΔＷ_ｉ＋１（Ｇ_ｉ）は、ｉ＋１番目の訓練反復の間に導出された勾配である。

他のタイプの最適化は、ステートフルである。ステートフル最適化では、状態は、ニューラルネットワークの各重みに対して維持され、勾配と共に、各重みをどのように更新するかを決定するために使用される。各ノード１７１０は、更新専用の各重みに対して、状態を格納して維持する。状態は、勾配がニューラルネットワーク重みにどれほど影響を及ぼすかを制御する学習率を表し得る。

ステートフル最適化のタイプの１つは、「Ａｄａｍ」として知られている。Ａｄａｍは、２つの状態パラメータ（Ｖ及びＳとして表される）を使用して、訓練プロセス全体を通じて学習率を変調する。これらのパラメータは、あらゆる最適化ステップで更新され、ニューラルネットワークのパラメータを更新するために使用される。各最適化ステップでは、以下の通り、前の値Ｖ_ｉを使用して、重みに対する状態の値Ｖが更新され、
式中、Ｂ_１は、ハイパーパラメータであり、Ｇは、同じ重みと関連付けられた勾配である。

同様に、各最適化ステップでは、以下の通り、前の値Ｓ_ｉを使用して、重みに対する状態の値Ｓが更新され、
式中、Ｂ_２は、ハイパーパラメータであり、Ｇは、同じ重みと関連付けられた勾配である。

新しく決定された勾配を使用して状態値Ｓ及びＶが更新された時点で、それらを適用して、新しい重みが決定される。状態情報及び勾配を使用して、更新済みの重みが以下の通り計算される。
式中、η及びεは、ハイパーパラメータである。

リデューススキャタに続いて、システム１７２０の各処理ノード１７１０は、数２及び３を適用して、更新に割り当てられる重みと関連付けられた状態値を更新することができる。状態値が更新されると、各ノード１７１０は、数４に従って、更新済みの状態を使用してそれらの重みを更新する。

説明されるこれらの最適化ステップは例であり、他のタイプのステートレス及びステートフル最適化アルゴリズムを使用できることが当業者によって理解されよう。

上記で説明される概念は、組合せが可能である。例えば、第２の発明と第３の発明を組み合わせることができる。この事例では、多数のリデューススキャタに続いて多数のオールギャザが実行される。モデルパラメータの更新は、リデューススキャタコレクティブの最初のリデューススキャタコレクティブの後且つ多数のオールギャザコレクティブの最後のオールギャザコレクティブの前に少なくとも実行される。

いくつかの事例では、オールリデュースのトップで（すなわち、すべてのリデューススキャタが実行された後であるが、オールギャザコレクティブの前に）モデルパラメータの更新を実行することが最適であり得るが、第３の発明のいくつかの実施形態では、モデルパラメータの更新は、１つ若しくは複数のリデューススキャタコレクティブの前に又は１つ若しくは複数のオールギャザコレクティブの後に実行することができる。そのような実施形態の例は、図２３～２８に関して以下で説明しており、ゲートウェイデバイスが、オールギャザコレクティブに参加した後に、機械学習モデルを更新するための最適化ステップを実行するというものである。

上記の図９～９Ｃの説明から理解されるように、多数のリデューススキャタコレクティブが実行され、次いで、多数のオールギャザが実行される事例では、処理ノード１７１０のシステム１７２０は、多数の異なるセットに分割される。これらのセットの各々は、システム１７２０の異なる次元に沿って配列されるものとして概念化することができる。図１７Ａ及び１７Ｂでは、システム１７２０の一部として３つの処理ノード１７１０のみが示されているが、実践では、より多くの処理ノード１７１０が存在する可能性が高い。

システム１７２０では、第２の発明と第３の発明が組み合わされると、各処理ノード１７１０は、２つ以上の異なるセットに属するようになり、更新を使用して、それが属するそれらのセットの異なるセット間でリデューススキャタの各々を実行するように配列される。これに続いて、各処理ノード１７１０は、モデルパラメータの対応する部分を更新するために得たリデュース済みの更新セットを使用して、更新ステップを実行する。次いで、各処理ノード１７１０は、更新済みのモデルパラメータを使用して、それが属するそれらのセットの異なるセット間でオールギャザの各々を実行する。最終結果は、各処理ノード１７１０が更新済みのモデルパラメータのフルセットを格納するというものである。

上記で論じられるような状態情報は、この実施形態でも実施することができる。この事例では、各処理ノード１７１０は、多数のリデューススキャタコレクティブに続いて更新するモデルパラメータと関連付けられた状態を維持する。

本発明の他の組合せも可能である。例えば、第１の発明と第３の発明を組み合わせることができる。この事例では、モデルに対する更新セットを導出するために、各演算フェーズの間、異なる処理ノードによる別個の実行及び準備を適用することができる。複数の更新セットを導出するために、実行及び準備処理ノードの複数のグループが使用される。次いで、１つ又は複数のリデューススキャタコレクティブ、更新済みのモデルパラメータ、及び、１つ又は複数のオールギャザコレクティブを使用して交換された更新済みのモデルパラメータを使用して、更新セットが交換される。実行及び準備ノードの各グループの処理ノードのうちの１つは、オールリデュースに参加し、更新ステップを実行することができる。例えば、システム１７２０の処理ノード１７１０は、準備ノードであり得、これらのノード１７１０の各々は、異なる実行ノードと関連付けられる。

いくつかの実施形態では、３つの発明をすべて組み合わせることができる。図１８を参照すると、図１８は、３つの発明をまとめて組み合わせることができる例示的なシステム１８００を示している。システム１８００は、複数対の処理ノード（ＩＰＵとして示される）を含み、その各々は、異なる入力データセットに基づいてデータセット（例えば、ニューラルネットワークの更新済みの重み）を導出するように構成される。複数対の処理ノードの各々は、実行グループ１８２０に属する処理ノードと、準備グループ１８３０に属する処理ノードとを含む。例えば、１対の処理ノードは、実行グループ１８２０に属する処理ノード１８１０ａを含み、別の処理ノードは、準備グループ１８３０に属する（１８１０ｂ）。準備グループ１８３０の処理ノードは、実行グループ１８２０の処理ノードによって処理するために必要なデータをロードし、実行グループ１８２０の処理ノードによって計算されたデータをアンロードすることによって、記憶装置１８４０と通信するように構成される。

示されるように、システム１８００は、いくつかのサブシステム１８５０ａ、１８５０ｂ、１８５０ｃ、１８５０ｄ（本明細書では総称してサブシステム１８５０と呼ばれる）に配列される。図１８は、第１のサブシステム１８５０ａのコンポーネントのみを示す。しかし、他のサブシステム１８５０の各々は、実質的に同一の処理ノードセットを含み、それらの処理ノードは、実行グループ１８２０と準備グループ１８３０とに分かれる。実行グループ１８２０の処理ノードの各々は、実行処理ノードと呼ぶことができ、準備グループの処理ノードの各々は、準備処理ノードと呼ぶことができる。記憶装置１８４０をサブシステム１８５０の各々の間で共有することも、記憶装置１８４０が各サブシステム１８５０用の別個の記憶装置を含むことも可能である。いくつかの事例では、システム１８００の準備処理ノードの各々は、異なる記憶装置と関連付けることができる。

複数対の処理ノードの各々は、動作するように構成された図２Ａに示されるノード２０５ａとノード２０５ｂの対として動作することができる。具体的には、各実行処理ノードは、１つの段階と関連付けられた処理を実行し、対応する準備処理ノードは、先行する演算フェーズにおいてその実行処理ノードによって計算された結果をアンロードし、次の演算フェーズにおいてその実行処理ノードによって必要とされるデータをロードする。システム１８００の処理ノードの各対によって実行されるものとして示される動作は、図２Ａの表２２０Ａによって示されるようなものである。この表２２０Ａは、各対の処理ノードが演算フェーズ間で役割を入れ替えない実施形態において、システム１８００の処理ノードの各対によって実行される動作を示す。しかし、他の実施形態では、システム１８００は、１対の処理ノードの各処理ノードが各演算フェーズ間で役割を入れ替えるように実装することができる。この事例では、システム１８００の処理ノードの各対は、図２に示される処理ノード２０５ａ、２０５ｂとして動作することができ、各ノードによって実行される動作は、図２の表２２０に示されるようなものである。

各実行処理ノードが、多段階プロセスの各段階と関連付けられた計算の実行を進め、その対応する準備処理ノードに結果を提供した時点で、システム１８００のすべての準備処理ノード間で結果を交換するために、新しいタイプのコレクティブが実行される。交換される結果は、モデルの更新を計算するために使用されたモデルパラメータの更新を含む。

上記で説明される新しい多次元コレクティブスキームは、システム１８００のすべての準備処理ノード間で実行される。新しい多次元コレクティブを実行するため、各準備処理ノードは、実行処理ノードによって計算され且つ記憶装置１８４０にアンロードされた更新をロードする。次いで、各準備処理ノードは、多段階プロセスの処理から決定された更新をすべて保持する。各準備処理ノードは、少なくとも２つの異なる準備処理ノードセットに属する。これらの異なるセットは、上記で説明されるように、多数のリデューススキャタ及び多数のオールギャザを実行するために使用され、これらの２つのコレクティブセット間でモデルパラメータの更新が行われる。

図１８は、準備プロセッサが二次元格子に配列される例を示す。この二次元の例では、システム１８００の準備処理ノードは、図９～９Ｃに示される処理ノードのグループ９００として配列することができる。従って、図９～９Ｃに示される処理ノードの行は、図１８に示される配列において、ページに向かう方向に延伸していることを理解されたい。各サブシステム１８５０は、図９～９Ｃを参照して上記で説明される処理ノードの列の異なる列の処理ノードを含む。コレクティブ動作は、システム１８００の準備処理ノード間で実行される。

図９～９Ｃから理解されるように、準備処理ノードの各々は、最初に、更新を使用して第１のリデューススキャタを実行し、第１のリデューススキャタは、それが属する第１の準備処理ノードセットの間で実行される。第１のセットは、列であり得、その事例では、処理ノード１８１０ｂは、サブシステム１８５０ａの準備グループ１８３０のすべての処理ノードでリデューススキャタを実行することになる。各サブシステム１８５０において実行されたリデューススキャタに続いて、準備処理ノードの各々は、それが属する第２の準備処理ノードセットで第２のリデューススキャタを実行する。第２のリデューススキャタは、各処理ノードによって、第１のリデューススキャタの結果として得たリデュース済みの更新を使用して実行される。第２のセットは、行であり得、その事例では、サブシステム１８５０の各々における各処理ノードは、それらのサブシステム１８５０のうちの他のサブシステム１８５０のその対応するすべての処理ノードで第２のリデューススキャタを実行する。例えば、処理ノード１８１０ｂは、サブシステム１８５０ｂ、１８５０ｃ、１８５０ｄの対応するすべての処理ノードで第２のリデューススキャタを実行することになる。

２つのリデューススキャタに続いて、準備処理ノードの各々は、モデルパラメータの対応するサブセットを更新するために、リデューススキャタの結果として得たリデュース済みの更新のサブセットを適用する。

次いで、処理ノードの各々は、それが属する第２の処理ノードセットで、更新済みのモデルパラメータを使用して第１のオールギャザを実行する。例えば、処理ノード１８１０ｂは、サブシステム１８５０ｂ、１８５０ｃ、１８５０ｄの対応するすべての処理ノードで第１のオールギャザを実行することになる。次いで、準備処理ノードの各々は、更新を使用して第２のオールギャザを実行し、第２のオールギャザは、それが属する第１の準備処理ノードセットの間で実行される。例えば、処理ノード１８１０ｂは、サブシステム１８５０ａの準備グループ１８３０のすべての処理ノードでオールギャザを実行することになる。

このコレクティブプロセスの終了時には、準備処理ノードの各々は、同じ更新済みのモデルパラメータのコピーを有し、そのコピーは、次の演算フェーズの間に記憶装置１８４０にアンロードすることができる。これらの更新済みのモデルパラメータは、図２又は２Ａに示されるような多段階プロセスを使用して処理を再び実行することによってさらなる更新を導出するために使用することができる。

上記で説明されるコレクティブプロセスは、表２２０、２２０Ａに示されるプロセスに続いて、システム１８００の準備ノードの単一の交換フェーズにおいて実行することができる。

言及されるように、図１８に関して上記で説明される技法は、ニューラルネットワークを訓練するために適用することができる。実行処理ノードによって得られる結果は、モデルパラメータ（ニューラルネットワークの重みなど）の更新又はその更新済みのバージョンを含み得る。各実行処理ノードグループは、異なる訓練データセットを使用して重みの更新を導出するため、更新済みの重み／重み更新は、処理ノードの対ごとに異なる。次いで、実行されるコレクティブは、複数対の処理ノード間で重み更新を共有して平均化する。これに続いて、処理ノードの各対は、同じ更新済みの重みを有するようになり、訓練データセットに基づいてさらなる重み更新を決定するために、さらなる訓練反復に進むことができる。

図１０を参照すると、図１０は、上記で説明される処理ノードを実装するために使用することができるマルチタイル処理ノード２の例を示している。処理ノード２は、複数の処理ノードタイル４のアレイ６と、タイル４間を接続する相互接続部３４とを含む。処理ノード２は、同じＩＣパッケージにパッケージ化された複数のダイのうちの１つとして単独で実装することができる。相互接続部３４は、本明細書では、タイル４が互いにデータを交換できるようにするためのものであるため、「交換ファブリック」３４と呼ぶこともできる。各タイル４は、処理ノード及びメモリのそれぞれのインスタンスを含む。例えば、例示として、処理ノード２は、何百ものタイル４又は千をも超えるタイル４を含み得る。完全を期すため、本明細書で言及される「アレイ」は、必ずしも特定の次元数又は物理的なレイアウトのタイル４を含意するとは限らないことも留意されたい。

実施形態では、各処理ノード２は、１つ又は複数の外部のリンク８も含み、処理ノード２を１つ又は複数の他の処理ノード（例えば、同じ処理ノード２の１つ又は複数の他のインスタンス）に接続できるようにする。これらの外部のリンク８は、処理ノード２をホスト処理ノードに接続するための１つ又は複数の処理ノード・ホスト間リンク、並びに／或いは、同じＩＣパッケージ若しくはカード上の又は異なるカード上の処理ノード２の１つ又は複数の他のインスタンスとまとめて接続するための１つ又は複数の処理ノード間リンクのうちの１つ又は複数を含み得る。例示的な一配列では、処理ノード２は、処理ノード２によって処理されるべき入力データという形態で、処理ノード・ホスト間リンクのうちの１つを介して処理ノードに接続されるホスト処理ノード（図示せず）から作業を受信する。処理ノード２の複数のインスタンスは、処理ノード間リンクによって、まとめてカードに接続することができる。従って、ホストは、ホストアプリケーションに必要な作業負荷に応じて、マルチタイルシステムオンチップとして設計されたコンピュータにアクセスする。

相互接続部３４は、アレイ６の異なるタイル４が互いに通信できるように構成される。しかし、同じタイル４上のスレッド間の依存性が潜在的に存在するのと同様に、アレイ６の異なるタイル４上で実行されているプログラムの部分間の依存性も存在し得る。従って、先に実行されているあるタイル４上のコード片の依存データが、別のタイル４上の別のコード片によって利用できるようになるのを防ぐための技法が必要とされる。

各タイル４は、それ自体が、ローカル命令メモリからの命令（コード）の実行や、ローカルデータメモリ内のデータの取扱いが可能な処理ノードである。タイル４は、バレルスレッド処理ノード及びメモリのそれぞれのインスタンスを含み得る。例えば、例示として、処理ノード２は、何百ものタイル４又は千をも超えるタイル４を含み得る。完全を期すため、本明細書で言及される「アレイ」は、必ずしも特定の次元数又は物理的なレイアウトのタイル４を含意するとは限らないことも留意されたい。

処理ノード２上のタイル４間の通信は、時間決定論的に起こる。しかし、タイル間交換の他の形態も可能である。アレイ６の異なるタイル４上で走らせているプログラムの部分間の依存性が存在し得る。すなわち、あるタイル上の処理データは、別のタイルからの結果に依存し得る（例えば、別のタイルが依存する結果を提供し得る）。従って、先に実行されているあるタイル４上のコード片の依存データが、別のタイル４上の別のコード片によって利用できるようになるのを防ぐための技法が必要とされる。

ＡＩ及びデータ科学の並列プログラミングモデルは、通常、演算、バリア及び交換の３フェーズの反復実行モデルに従う。その意味は、処理ノードへの及び処理ノードからのデータ転送が、通常、処理ノード間及び各処理ノードとホストとの間のデータ一貫性を提供するためにバリア依存性を有するというものである。典型的に使用されるデータ一貫性モデルは、バルク同期並列（ＢＳＰ）、ステイル同期並列（ＳＳＰ）及び非同期である。本明細書で説明される実施形態はＢＳＰモデルを使用するが、代替の形態として他の同期モデルを利用できることが明らかであろう。

図１１及び１２を参照すると、図１１及び１２は、ＢＳＰ交換スキームの実装形態を示しており、各タイル４は、交互サイクルで演算フェーズ３３と交換フェーズ３２を実行し、演算フェーズ３３と交換フェーズ３２は、タイル間でバリア同期３０によって相互に分離される。バリア同期は、各演算フェーズ３３とそれに続く交換フェーズ３２との間に配置される。

演算フェーズ３３とタイルの間の通信のための交換フェーズ３２は両方とも、図３に示される演算フェーズにおいて実施することができ、プリコンパイル済みの同期バリアによって処理ノード間交換フェーズから分離される。

演算フェーズ３３の間、各タイル４は、タイル上で局所的に１つ又は複数の演算タスクを実行するが、他のいかなるタイル４ともこれらの演算の結果を通信することはない。交換フェーズ３２では、各タイル４は、先行する演算フェーズからの演算の１つ又は複数の結果を１つ又は複数の他のタイルと交換できるが、そのタスクが依存性を有するデータを他のタイル４から受信するまで、新しい演算を実行することはない。また、先行する演算フェーズにおいて演算されたもの以外のデータを他のタイルに送信することもない。交換フェーズ３２において内部制御関連動作などの他の動作を実行できることも除外されない。タイルグループの外部との通信は、ＢＳＰメカニズムを任意に利用できるが、代替として、ＢＳＰを利用せずに、それ自体の他の何らかの同期メカニズムを代わりに使用することができる。

ＢＳＰ原理によれば、バリア同期３０は、演算フェーズ３３から交換フェーズ３２に移行する接合点、交換フェーズ３２から演算フェーズ３３に移行する接合点又はその両方に配置される。すなわち、（ａ）グループのいずれかのタイルが次の交換フェーズ３２に進めるようになる前に、すべてのタイル４がそれらのそれぞれの演算フェーズ３３を完了する必要があるか、（ｂ）グループのいずれかのタイルが次の演算フェーズ３３に進めるようになる前に、グループのすべてのタイル４がそれらのそれぞれの交換フェーズ３２を完了する必要があるか、又は、（ｃ）これらの条件の両方が実施されるかのいずれかである。３つのすべての変形形態では、フェーズを交互に行うのは個々のタイルであり、同期するのはアセンブリ全体である。次いで、交換フェーズと演算フェーズのシーケンスは、複数の繰り返しにわたって繰り返すことができる。ＢＳＰの専門用語では、交換フェーズ及び演算フェーズの各繰り返しは、「スーパーステップ」と呼ばれる場合がある（ただし、文献上では、専門用語が常に一貫して使用されるとは限らないことに留意されたい。すなわち、個々の交換フェーズ及び演算フェーズの各々が個別にスーパーステップと呼ばれる場合があるのに対して、本明細書で採用される専門用語のように、交換フェーズ及び演算フェーズが合わせてスーパーステップと呼ばれる場合もある）。

また、同じ処理ノード２又は異なる処理ノード上のタイル４の複数の異なる独立したグループの各々は、互いに非同期的に動作する別個のＢＳＰグループを形成することができ、演算、同期及び交換のＢＳＰサイクルは所定の各グループ内でのみ課されるが、各グループは他のグループから独立してそれを行うことは除外されないことにも留意されたい。すなわち、マルチタイルアレイ６は、複数の内部同期グループを含み得、各々は、他のそのようなグループから独立して及び非同期的に動作する（後にさらに詳細に論じられる）。いくつかの実施形態では、後にさらに詳細に論じられるように、同期及び交換の階層的分類がある。

図１２Ａは、（ａ）演算フェーズ３３から交換フェーズ３２へのバリア同期（上記を参照）が課される事例における、アレイ６のタイルのいくつか又はすべてのグループ４ｉ、４ｉｉ、４ｉｉｉの間で実装されるようなＢＳＰ原理を示す。この配列では、いくつかの他のタイルが依然として交換を行っている間に、いくつかのタイル４が演算３３を開始できることに留意されたい。

処理ノード２のタイル４間の通信は時間決定論的に起こり、データパケットはヘッダなしで送信される。これについては、参照により組み込まれる、我々の先の出願である米国特許出願第１５／８８６３１５号明細書で説明されている。

図１２Ｂは、内部（チップ上）及び外部（チップ間）同期を伴う例示的なＢＳＰプログラムフローを示す。示されるように、フローは、内部交換５０（同じチップ２上のタイル４間のデータの）及び外部交換５０’（異なるチップ２上のタイル４間のデータの）を含む。

プログラムは、（ｉ）第１の演算フェーズ、次いで、（ｉｉ）内部バリア同期３０、次いで、（ｉｉｉ）内部交換フェーズ５０、次いで、（ｉｖ）外部バリア同期８０、次いで、（ｖ）外部交換フェーズ５０’の順番で含む、同期、交換フェーズ及び演算フェーズのシーケンスを実行するように配列することができる。外部バリア８０は、内部交換フェーズ５０の後に課され、その結果、プログラムは、内部交換５０の後にのみ外部交換５０’に進む。また、図７Ｂのチップ２Ｉに関して示されるように、内部交換（ｉｉｉ）と外部バリア（ｉｖ）との間に演算フェーズを任意に含めることができることにも留意されたい。

従って、データが処理ノード２上のタイル４間で通信される際、通信は、ヘッダのないデータパケットを使用して行われる。しかし、データが処理ノード２外の場所に送信される際は、このデータは、ターゲット場所を示すヘッダを付けて送信される。

図２、２Ａ、４及び１８に関して上記で説明される記憶装置は、処理ノードと処理ノードとのインタフェースを取るゲートウェイ及び処理ノードとホスト記憶装置とのインタフェースを取るゲートウェイの一部であり得る。

図１３を参照すると、図１３は、処理ノード１３１０、１３２０とホスト記憶装置１３４０とのインタフェースを取るためのゲートウェイ１３３０を含むシステムの例を示している。図２、２Ａ、４及び１８に関して上記で説明される記憶装置は、メモリ１３５０であり得る。処理ノード１３１０、１３２０のうちの１つ又は複数によって処理するためのデータは、ホスト記憶装置１３４０からメモリ１３５０に転送される。それに加えて、データの回収と同様に、ゲートウェイ１３３０は、ホスト記憶装置１３４０にデータを書き込む。データの書き込みは、データセンタポートを介して行われる。データは、ゲートウェイメモリ１３５０から処理ノード１３１０、１３２０のうちの１つ又は複数に転送することができる。

ゲートウェイメモリ１３５０から処理ノード１３１０、１３２０へのデータ転送の代わりに又はそれに加えて、データは、処理ノード１３１０、１３２０からゲートウェイ１３３０に転送することができる。処理ノード１３１０、１３２０は、データパケットの形態でゲートウェイ１３３０にデータを送信するように構成され、各データパケットは、アドレスを示すヘッダを含む。ゲートウェイ１３３０は、データパケットのアドレスを使用して、それらのデータパケットをどこに送信するかを決定する。例えば、データパケットは、ローカルメモリ１３５０に格納することができる。データパケットは、ホスト記憶装置１３４０に送信することができる。データパケットは、処理ノード１３１０、１３２０の他方に送信することができる。データパケットは、別のゲートウェイ（図示せず）を介して、さらなる処理ノードに送信することができる。

データは、ストリーミングエンジン１２４の制御の下で、メモリ１３５０に向けて／メモリ１３５０からゲートウェイ１３３０を横断する。ストリーミングエンジン１２４は、データストリーミング動作の実行を行う。データバッチに対するこれらの動作は、作業記述子（ＷＤ）によって指定することができる。ストリーミングエンジンは、２つの実行エンジンと、コードメモリ（図示せず）とを含む。実行エンジンの一方は、データムーバエンジン（ＤＭＥ）１２２であり、他方は、事前／事後作業エンジン（ＰＰＥ）１２３である。それらのエンジンは、コンパイラによって生成された実行可能イメージとしてコードメモリにロードされた命令を実行する。ストリーミングエンジン１２４は、ＤＭＥ１２２による実行のための作業命令セットと、ＰＰＥ１２３による実行のための作業命令セットとを有する。ＤＭＥ及びＰＰＥに対する命令セットは、コンパイル時のセットアップとして、ＷＤによって調整される。単一のデータ交換同期点に対するこれらの命令は、単一のＷＤにまとめることができる。ＤＭＥ１２２は、実行可能イメージのＤＭＥセクションに見られる特定のＤＭＥ命令によって動作する。ＤＭＥ１２２は、所定の交換同期点（ＥＳＰ）に関連するデータムーバ（ＤＭＯＶ）命令セットにナビゲートするためのＷＤを使用する。ＰＰＥ１２３は、実行可能イメージのＰＰＥセクションに見られる特定のＰＰＥ命令によって動作する。ＰＰＥ１２３は、所定のＥＳＰに関連する事前／事後作業命令セットにナビゲートするためのＷＤを使用する。

ゲートウェイは、ＰＣＩｅポートを含む。これらのＰＣＩｅポートのうちの４つは、処理ノード１３１０、１３２０に及び処理ノード１３１０、１３２０からパケットを渡すように構成される。各ＰＣＩｅポート（図１３に示される）は、異なるアクセラレータ特有のプロトコルを使用するように構成することができる。次いで、カスタムゲートウェイトランザクション層は、そのプロトコルとゲートウェイ内部プロトコルとの間の変換を行う。カスタムゲートウェイ層は、アドレスマップを実装し、コレクティブ及びブロードキャスト／マルチキャストオフロードサポートを提供する。各ゲートウェイ１３３０は、アドレスマッピングスキームを提供し、グローバルアドレス空間においてすべての参加処理ノードを露出させる。処理ノード１３１０、１３２０からゲートウェイ１３３０で受信されるパケットは、パケットがルーティングされる送信先ゲートウェイを識別するゲートウェイＩＤを含む。

処理ノード１３１０、１３２０は、グローバルアドレス空間においてアドレスを指定するパケットを発送することができる。アドレスの一部分は、ターゲットゲートウェイ上の資源を選択するために使用される。アドレスの一部分は、アドレス指定されたゲートウェイを識別するために使用される。他の部分は、ゲートウェイメモリ又は関連アクセラレータのタイルメモリのメモリアドレスを識別するために使用される。処理ノードのタイルメモリは、タイルインデックス及びメモリオフセットによってアドレス指定可能である。アドレスは、データパケットのデータが格納されるアクセラレータ内の場所を識別するために、このタイルインデックス及びメモリオフセットを含み得る。

パケットが受信されると、アドレスにおけるゲートウェイ１３３０の識別は、このゲートウェイのグローバルＩＤに対して比較される。マッチすれば、その要求は、このゲートウェイ（ローカルアクセラレータ又はローカルメモリ）に属する資源をターゲットとする。そうでなければ、アドレスの一部分は、ルーティングテーブルにインデックスを付けるために使用される。ルーティングテーブルのコンテンツは、システムのターゲットポートを示す。アドレスの一部のビットは、ゲートウェイルーティングテーブルとマッチさせて、パケットをどこにルーティングするかを決定する。

パケットがゲートウェイ１３３０をターゲットとする場合は、パケットアドレスのローカルアドレスビットは、多数の領域からなるローカルゲートウェイベースアドレスレジスタ（ＢＡＲ）セットで調べるために使用される（すなわち、ゲートウェイメモリ１３５０に対して１つのＢＡＲ、各処理ノードポートに対して１つのＢＡＲ）。パケットがゲートウェイメモリ（例えば、メモリ１３５０）に格納するためのものであることをローカルアドレスビットが示す場合は、パケットは、ゲートウェイメモリ１３５０に対するＢＡＲのアドレスに従って、ゲートウェイメモリ１３５０に格納される。パケットが処理ノード１３１０、１３２０のうちの１つに伝達するためのものであることをローカルアドレスビットが示す場合は、パケットは、ゲートウェイ１３３０のＤＭＥ１２２に転送される。ゲートウェイ１３３０のＤＭＥ１２２から、データパケットは、関係処理ノードポートに対するＢＡＲのアドレスに従って、処理ノードに転送することができる。

ゲートウェイ１３３０の動作は、参照により本明細書に組み込まれる、米国特許出願第１６／４２８８４６号明細書においてより詳細に説明されている。

ゲートウェイ１３３０などのゲートウェイは、より大きなシステムを形成するために共に接続することができる。図２２を参照すると、図２２は、そのようなシステム１７０の例を示している。システム１７０は、多数の処理ノードグループと、各々が「マシン」と呼ばれるゲートウェイとを含む。多数のマシン１６１が配列されて装置１７１になり、クラスタ１７１と呼ばれる。各クラスタ１７１は、最大で４つのマシン１６１を含む。マシン１６１のみならず、同じクラスタ１７１内のマシンに接続されているものもまた、リンク（ＩＰＵ－ＧＷリンクとして示される）上で異なるクラスタ１７１内のマシン１６１に接続される。従って、システム１７０では、処理ノードは、異なる次元に沿って通信することができる。

マシン１６１は、異なる構成で共に接続することができる。図２３を参照すると、図２３は、システム２３０において異なるマシン１６１をどのように配列することができるかを示す例を示している。第２の発明及び第３の発明は、以下で説明されるように、システム２３０において実装することができる。この例では、コレクティブ動作の一部は、ゲートウェイにおいて実施される。従って、いくつかの実施形態では、第２の発明及び第３の発明の「処理ノード」は、ゲートウェイデバイス及びそれらのゲートウェイデバイスが結合される処理ユニットを含む。

ボックス１６１によって例示されるボックスの各々は、マシン１６１を表す。この例の処理ユニット及びゲートウェイは、各々が異なる「ラック」に分けられる。垂直矢印の各々は、単一のラック内の異なる処理ユニット間のデータ転送を表す。従って、各マシン１６１は、２つの異なるラック間で分けられ、マシン１６１のある１つのゲートウェイ及び２つの処理ユニットは一方のラックに属し、同じマシン１６１の別のゲートウェイ及び２つの処理ユニットは他方のラックに属する。水平矢印は、異なるラック間のデータ転送を示す。この例では、各ラックには３２個の処理ユニットがあり、システム２３０には３２個のラックがある。

図の番号は、実行されるステップの順番を示す。コレクティブ動作の開始時には、すべての参加処理ユニットの各々は、それら自体のローカル重み更新（勾配）セットを有しており、それらは、システム２３０全体にわたってリデュースされるものである。

第１のステップでは、同じラックのすべての処理ユニットがリデューススキャタを実行し、その結果、各処理ユニットは、そのラックに対するリデュース済みの勾配の１／３２を有する。このステップの終了時には、各ラックは、そのリデュース済みの勾配全体を計算しており、そのラックの各処理ユニットは、その計算の１／３２を保持している。

第２のステップでは、異なるラックの処理ユニットは、異なるラックのゲートウェイ間でオールリデュースを実行することによって、それらのリデュース済みの勾配を交換する。これは、図１４Ａ及び１４Ｂに示されるように、リングの異なる方向においてデータの異なる部分を交換することによって使用して実行することができる。勾配の１／３２の部分はリングの一方向において交換され、勾配の別の１／３２の部分はリングの他の方向において交換される。従って、このステップの終了時には、すべてのラックがリデュース済みの勾配の全セットを受信しており、それらは、各ラックの１６個のゲートウェイのメモリにわたって散在する。

任意に、第２のステップに続いて、システム２３０のゲートウェイは、ゲートウェイメモリの重みのコピーを更新するために、勾配（及び潜在的にはメモリに格納されたオプティマイザ状態などの他のデータ）を使用することによって、オプティマイザ関数を実施する。

第３のステップでは、処理ユニットは、ゲートウェイメモリからデータ（リデュース済みの勾配又は更新済みの重み）を読み取る。ゲートウェイがオプティマイザ関数を実行しない場合は、処理ユニットがオプティマイザ関数を実行し、更新済みの重みを生成する。次いで、処理ユニットは、それらのラックの他の処理ユニットと共に、オールギャザに参加し、それに続いて、システム２３０の各処理ユニットは、更新済みの重みのフルセットを格納する。図２４～２８は、これらのステップをさらに詳細に示す。

図２４を参照すると、図２４は、すべてが同じラックに属する処理ユニット２４１０及びゲートウェイデバイス２４２０のセットを示している。実装では、１つのラックには４つを超える処理ユニット２４１０が存在し得るが、簡略化のために４つのみ示されている。各処理ユニット２４１０は、図１３に示される処理ノード１３１０、１３２０と同じものであり得る。同様に、各ゲートウェイデバイス２４２０は、図１３に示されるゲートウェイ１３３０と同じものであり得る。

各処理ユニット２４１０は、モデルを更新するための勾配のフルセットを格納する。リデューススキャタは、勾配の交換及びリダクションを行うために、ユニット２４１０間で実行される。勾配の交換は、勾配を含むパケットを処理ユニット２４１０間で直接送信することによって及び／又はユニット２４１０に接続されたゲートウェイ２４２０を介してパケットを送信することによって行うことができる。

図２５を参照すると、図２５は、上記で論じられるリデューススキャタの結果を示している。リデューススキャタに続いて、ラックの各処理ユニット２４１０は、リデュース済みの勾配の異なる部分を有する。次いで、これらの勾配は、ゲートウェイ２４２０にロードされ、ゲートウェイ２４２０は、プロセスの次の段階を実行する。

図２６を参照すると、図２６は、異なるラックのゲートウェイ間でオールリデュースを実行する際の、ゲートウェイ１４２０間でのデータの交換を示している。簡略化のため、２つの異なるラックからの２つのゲートウェイ１４２０のみが示されている。各ゲートウェイ１４２０は、その２つの接続された処理ユニット１４１０から受信したデータを格納する。ゲートウェイ１４２０の各々は、２つのコレクティブオフロードエンジン１４３０を含む。ゲートウェイコレクティブオフロードエンジン１４３０の各々は、ゲートウェイイーサネット（登録商標）ポートを通じて接続されるＮ個のゲートウェイにわたって散在するエンジン１４３０のＮ個のインスタンスにわたってコレクティブ動作を実施するように設計される。各コレクティブオフロードエンジン１４３０は、ＦＰＧＡを含み、ＦＰＧＡは、データ転送動作を実行するため、及び、任意に、最適化ステップを実行するためのものである。各ゲートウェイ１４２０上の２つのエンジン１４３０は、リングの反対方向にそれぞれ送信するように構成され、ゲートウェイイーサネットポートの利用可能な全帯域幅を使用できるようにする。各ゲートウェイ１４２０のコレクティブエンジン１４３０は、オールリデュースコレクティブにおいて、リングの２つの方向におけるデータの交換及びリダクションを行わせる。オールリデュースに続いて、ゲートウェイ１４２０のコレクティブオフロードエンジン１４３０は、勾配から新しい重みを導出するために最適化ステップを実行し、接続された処理ユニット１４２０に新しい重みを返すことができる。或いは、ゲートウェイ１４２０は、処理ユニット１４２０に勾配を返し、次いで、処理ユニット１４２０が最適化ステップを実行することができる。いずれの事例においても、その結果は、図２７に示されている。

図２７は、ラックの各処理ユニット２４１０がモデル全体に対する更新済みの重みの異なるサブセットを格納する様子を示す。次いで、これらの更新済みの重みを処理ユニット２４１０間で分散させるために、ラックの処理ユニット２４１０間でオールギャザステップが実行される。最終結果は、図２８に示されており、ラックの各処理ユニット２４１０は、モデルに対する更新済みの重みのフルセットを有する。結果は、システム２３０の各ラックにおいて同じである（すなわち、各ラックは、更新済みの重みのフルセットを格納する）。

図１９を参照すると、図１９は、データアレイを交換するためにデータ処理システムにおいて実施される例示的な方法１９００を示している。

Ｓ１９１０では、多数の第１の処理ノードの各々は、演算フェーズの間に演算命令を実行し、プリコンパイル済みの同期バリアに続いて、少なくとも１つの交換フェーズに入る。

Ｓ１９２０では、第１の処理ノードの各々は、データアイテムアレイのリデュース済みのサブセットを得るために、それぞれのデータアイテムアレイを使用して１つ又は複数のリデューススキャタコレクティブに加わる。

Ｓ１９３０では、第１の処理ノードの各々は、データアイテムアレイのさらなるリデュース済みのサブセットを得るために、オールリデュースコレクティブを使用してデータアイテムアレイのそれぞれのリデュース済みのサブセットを処理ノードと交換する。

Ｓ１９４０では、第１の処理ノードの各々は、リデュース済みのデータアイテムアレイを得るために、データアイテムアレイのさらなるリデュース済みのサブセットを使用して１つ又は複数のオールギャザコレクティブを実行する。

図２０を参照すると、図２０は、多段階プロセスを実行するためにデータ処理システムにおいて実施される例示的な方法２０００を示している。

Ｓ２０１０では、多数の処理ノードの第１の処理ノードは、多数の時間帯の少なくとも１つの間、多段階プロセスの段階の１つと関連付けられた計算を実行するためにそれらの時間帯のうちの後続の時間帯に必要とされるデータを少なくとも１つのデータ記憶装置からロードする。

Ｓ２０２０では、多数の処理ノードの第２の処理ノードは、多数の時間帯の少なくとも１つの間、それらの時間帯のうちの以前の時間帯に少なくとも１つのデータ記憶装置からロードされたデータを使用して、多段階プロセスの段階の１つと関連付けられた計算を実行する。

Ｓ２０３０では、多数の処理ノードの第１の処理ノード及び第２の処理ノードの少なくとも１つは、多数の処理ノードの第１の処理ノード及び第２の処理ノードの他方の処理ノードからデータを受信する。

Ｓ２０４０では、多数の処理ノードの第１の処理ノード及び第２の処理ノードの少なくとも１つは、それらの時間帯のうちの後続の時間帯の少なくとも１つの各々の間、多数の処理ノードの第１の処理ノード及び第２の処理ノードの他方の処理ノードから受信したデータを使用して、多段階プロセスの段階のそれぞれのものと関連付けられた計算を実行する。

図２１を参照すると、図２１は、モデルを更新するための方法２１００を示している。

Ｓ２１１０では、各処理ノードは、リデュース済みの更新アレイのサブセットを得るために、それぞれの更新アレイを使用して第１のコレクティブセットに参加するように構成される。第１のコレクティブセットは、１つ又は複数のリデューススキャタコレクティブを含む。また、第１のコレクティブセットは、リデューススキャタコレクティブの後に実行される１つ又は複数のオールギャザコレクティブも含み得る。

Ｓ２１２０では、各処理ノードは、更新済みのモデルパラメータアレイのサブセットを生成するために、リデュース済みの更新アレイのそれぞれのサブセットをモデルパラメータアレイに適用するように構成される。

Ｓ２１３０では、各処理ノードは、更新済みのモデルパラメータアレイの残りの要素を得るために、更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して第２のコレクティブセットに参加するように構成される。第２のコレクティブセットは、１つ又は複数のオールギャザコレクティブを含む。また、第２のコレクティブセットは、オールギャザコレクティブの前に実行される１つ又は複数のリデューススキャタコレクティブも含み得る。

上記の実施形態は、単なる例として説明されていることが理解されよう。

Claims

多数の処理ノードを含むデータ処理システムであって、前記多数の処理ノードの各々が、モデルのモデルパラメータアレイ及び前記モデルパラメータの更新アレイを格納するように構成された少なくとも１つのメモリを含み、前記更新アレイの各々が、異なる入力データセットを前記モデルで処理した結果であり、前記多数の処理ノードの各々の少なくとも１つのプロセッサが、
それぞれの更新アレイを使用して、前記処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のリデューススキャタコレクティブを含む第１の１つ又は複数のコレクティブセットに参加して、リデュース済みの更新アレイのサブセットを得ることと、
前記第１の１つ又は複数のコレクティブセットに続いて、前記リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用して、更新済みのモデルパラメータアレイのサブセットを生成することと、
その後、前記更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して、前記処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のオールギャザコレクティブを含む第２の１つ又は複数のコレクティブセットに参加して、更新済みのモデルパラメータアレイの残りの要素を得ることと、
を行うように構成される、データ処理システム。
前記多数の処理ノードの各々に対して、
前記少なくとも１つのメモリのそれぞれが、状態情報を含み、
更新済みのモデルパラメータアレイのサブセットを生成する前記ステップが、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイのサブセットを生成することを含む、請求項１に記載のデータ処理システム。
前記多数の処理ノードの各々に対して、
それぞれの状態情報が、多数の状態情報アイテムを含み、更新済みのモデルパラメータの各々が、前記状態情報アイテムの少なくとも１つと関連付けられ、
更新済みのモデルパラメータアレイのサブセットを生成するステップが、その関連付けられた少なくとも１つの前記状態情報アイテムを使用して、更新済みのモデルパラメータの各々を生成することを含む、請求項２に記載のデータ処理システム。
前記多数の処理ノードの各々に対して、
前記第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットを使用して以前の状態情報セットを更新することによって、それぞれの状態情報が得られる、請求項２又は３に記載のデータ処理システム。
前記多数の処理ノードの各々に対して、
それぞれの処理ノードによって維持される前記状態情報が、前記処理ノードのうちの他の処理ノードによって維持される前記状態情報とは異なる前記モデルパラメータと関連付けられる、請求項２～４のいずれか一項に記載のデータ処理システム。
前記モデルパラメータアレイの各々が、ニューラルネットワークに対するモデルパラメータを含み、前記更新アレイの各々が、前記ニューラルネットワークに対する前記モデルパラメータを更新するための勾配を含む、請求項１～５のいずれか一項に記載のデータ処理システム。
前記多数の処理ノードの各々に対して、
少なくとも１つのメモリのそれぞれが、状態情報を含み、
更新済みのモデルパラメータアレイのサブセットを生成するステップが、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイの前記サブセットを生成することを含み、
それぞれの状態情報が、オプティマイザ状態を含む、請求項６に記載のデータ処理システム。
前記多数の処理ノードの各々が、それぞれのモデルパラメータアレイ及びそれぞれの入力データセットを使用してそれぞれの更新アレイを生成するように構成される、請求項１～７のいずれか一項に記載のデータ処理システム。
前記多数の処理ノードの各々が、少なくとも１つのさらなる処理ノードからそれぞれの更新アレイを受信するように構成される、請求項１～５のいずれか一項に記載のデータ処理システム。
多数の処理ノードグループを含む、請求項１～９のいずれか一項に記載のデータ処理システムであって、各処理ノードグループが、第１の処理ノード及び第２の処理ノードを含み、前記多数の処理ノードの各々が、前記グループの異なるグループに属し、前記第１の処理ノードのうちの１つであるか又は前記第２の処理ノードのうちの１つであり、
各処理ノードグループが、そのグループの前記それぞれの更新アレイを生成するために多段階プロセスを実行するように構成され、
各処理ノードグループに対して、
そのグループの前記第１の処理ノードが、多数の時間帯の少なくとも１つの間、前記多段階プロセスの１つの段階と関連付けられた計算を実行するために前記時間帯のうちの後続の時間帯の間に必要とされるデータを少なくとも１つのデータ記憶装置からロードするように構成され、
そのグループの前記第２の処理ノードが、前記多数の時間帯の少なくとも１つの間、前記時間帯のうちの以前の時間帯に前記少なくとも１つのデータ記憶装置からロードされたデータを使用して、前記多段階プロセスの前記段階の１つと関連付けられた計算を実行するように構成され、
前記多数の処理ノードの前記第１の処理ノード及び前記第２の処理ノードの少なくとも１つが、
前記多数の処理ノードの前記第１の処理ノード及び前記第２の処理ノードの他方の処理ノードからデータを受信することと、
前記時間帯のうちの前記後続の時間帯の少なくとも１つの間、前記多数の処理ノードの前記第１の処理ノード及び前記第２の処理ノードの前記他方の処理ノードから受信した前記データを使用して、前記多段階プロセスの前記段階の前記それぞれのものと関連付けられた計算を実行することと、
を行うように構成される、データ処理システム。
前記多数の処理ノードの各々が、
少なくとも１つの処理ユニットと、
ゲートウェイデバイスと、
を含む、請求項１～１０のいずれか一項に記載のデータ処理システム。
前記多数の処理ノードの各々に対して、
前記１つ又は複数のリデューススキャタコレクティブが、多数のリデューススキャタコレクティブを含み、
前記１つ又は複数のオールギャザコレクティブが、多数のオールギャザコレクティブを含み、
前記少なくとも１つの処理ユニットが、
前記多数のリデューススキャタコレクティブの少なくとも１つと、
前記多数のオールギャザコレクティブの少なくとも１つと、
を実行するように構成され、
前記ゲートウェイデバイスが、
前記多数のリデューススキャタコレクティブの少なくとも１つを実行し、
その後、前記多数のオールギャザコレクティブの少なくとも１つを実行し、
その後、更新済みのモデルパラメータアレイのサブセットを生成するために、リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用する前記ステップを実行する、
ように構成される、請求項１１に記載のデータ処理システム。
多数の処理ノードを含むデータ処理システムにおいて実施される方法であって、前記多数の処理ノードの各々が、モデルのモデルパラメータアレイ及び前記モデルパラメータの更新アレイを格納するように構成された少なくとも１つのメモリを含み、前記更新アレイの各々が、異なる入力データセットを前記モデルで処理した結果であり、
前記方法は、前記多数の処理ノードの各々において、
それぞれの更新アレイを使用して、前記処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のリデューススキャタコレクティブを含む第１の１つ又は複数のコレクティブセットに参加して、リデュース済みの更新アレイのサブセットを得ることと、
前記第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットをそれぞれのモデルパラメータアレイに適用して、更新済みのモデルパラメータアレイのサブセットを生成することと、
その後、更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して、前記処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のオールギャザコレクティブを含む第２のコレクティブセットに参加して、更新済みのモデルパラメータアレイの残りの要素を得ることと、
を含む、方法。
前記多数の処理ノードの各々に対して、
前記少なくとも１つのメモリのそれぞれが、状態情報を含み、
更新済みのモデルパラメータアレイのサブセットを生成するステップが、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイの前記サブセットを生成することを含む、請求項１３に記載の方法。
前記多数の処理ノードの各々に対して、
それぞれの状態情報が、多数の状態情報アイテムを含み、更新済みのモデルパラメータの各々が、前記状態情報アイテムの少なくとも１つと関連付けられ、
更新済みのモデルパラメータアレイのサブセットを生成するステップが、その関連付けられた少なくとも１つの前記状態情報アイテムを使用して、更新済みのモデルパラメータの各々を生成することを含む、請求項１４に記載の方法。
前記多数の処理ノードの各々において、
第１の１つ又は複数のコレクティブセットに続いて、リデュース済みの更新アレイのそれぞれのサブセットを使用して以前の状態情報セットを更新することによって、それぞれの状態情報を得ること、
を含む、請求項１４又は１５に記載の方法。
前記多数の処理ノードの各々に対して、
それぞれの処理ノードによって維持される前記状態情報が、前記処理ノードのうちの他の処理ノードによって維持される前記状態情報とは異なる前記モデルパラメータと関連付けられる、請求項１４～１６のいずれか一項に記載の方法。
前記モデルパラメータアレイの各々が、ニューラルネットワークに対するモデルパラメータを含み、前記更新アレイの各々が、前記ニューラルネットワークに対する前記モデルパラメータを更新するための勾配を含む、請求項１３～１７のいずれか一項に記載の方法。
前記多数の処理ノードの各々に対して、
少なくとも１つのメモリのそれぞれが、状態情報を含み、
更新済みのモデルパラメータアレイのサブセットを生成するステップが、それぞれの状態情報及びリデュース済みの更新アレイのそれぞれのサブセットを使用して、更新済みのモデルパラメータアレイの前記サブセットを生成することを含み、
それぞれの状態情報が、オプティマイザ状態を含む、請求項１８に記載の方法。
コンピュータ可読命令セットを含むコンピュータプログラムを格納する非一時的なコンピュータ可読媒体であって、各命令セットが、多数の処理ノードの異なる処理ノード上で実行するためのものであり、前記多数の処理ノードの各々が、モデルのモデルパラメータアレイ及び前記モデルパラメータの更新アレイを格納するように構成された少なくとも１つのメモリを含み、前記更新アレイの各々が、異なる入力データセットを前記モデルで処理した結果であり、前記コンピュータ可読命令セットの各々は、
それぞれの更新アレイを使用して、前記処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のリデューススキャタコレクティブを含む第１の１つ又は複数のコレクティブセットに参加して、リデュース済みの更新アレイのサブセットを得ることと、
前記第１の１つ又は複数のコレクティブセットに続いて、前記リデュース済みの更新アレイの前記それぞれのサブセットを前記それぞれのモデルパラメータアレイに適用して、更新済みのモデルパラメータアレイのサブセットを生成することと、
その後、更新済みのモデルパラメータアレイのそれぞれのサブセットを使用して、前記処理ノードのうちの他の処理ノードと共に実行される１つ又は複数のオールギャザコレクティブを含む第２のコレクティブセットに参加して、更新済みのモデルパラメータアレイの残りの要素を得ることと、
をそれぞれの処理ノードに行わせる、非一時的なコンピュータ可読記憶媒体。