JP2022545222A

JP2022545222A - 複数のプロセッサを有するコンピュータにおける通信

Info

Publication number: JP2022545222A
Application number: JP2022510938A
Authority: JP
Inventors: ルークサウスウェルオズボーンリチャード; デイヴィッドファイルズマシュー
Original assignee: Graphcore Ltd
Current assignee: Graphcore Ltd
Priority date: 2019-12-23
Filing date: 2020-12-16
Publication date: 2022-10-26
Anticipated expiration: 2040-12-16
Also published as: GB2590658A; WO2021130075A1; KR20220010747A; US20210191731A1; JP7357767B2; GB201919148D0; CN113994318A; EP3973465A1; US20230185577A1; KR102790305B1; US11599363B2; US11907725B2

Abstract

複数のプロセッサを含むコンピュータであって、各プロセッサが、コンピュータの演算段階の間にデータに関する動作を実行し、プリコンパイル済みの同期バリアに続いて、コンピュータの交換段階の間に少なくとも１つの他のプロセッサとデータを交換するように構成され、コンピュータのプロセッサにはインデックスが付けられ、交換段階において各プロセッサによって行われるデータ交換動作が、そのインデックス値に依存する、コンピュータ。

Description

本開示は、複数のプロセッサを含むコンピュータにおいて異なるプロセッサ間で行われるデータ転送動作を制御することに関する。

大規模な並列動作を実行する際には、コンピュータ内に複数のプロセッサが提供される。そのようなコンピュータは、各プロセッサが単一のチップ上に提供されるシステムであり得る。プロセッサは、各々自体が複数の処理ユニットを含み得る。いくつかの事例では、プロセッサの各々は、異なるデータセットの同じ動作セットを実行するように構成することができる。プロセッサの各々は、演算段階の間に計算を実行した後に、交換段階の間に他のプロセッサのうちの１つ又は複数と結果を交換する。プリコンパイル済みのバリアは、演算段階と交換段階との間に設けられる。結果の交換により、より大きな動作環境において各々が異なるタスクを実行する異なるプロセッサ間での同期を達成することができる。

複数のプロセッサを含むコンピュータの応用の一例は、例えば、ディープニューラルネットワークの環境においてなど、機械学習アルゴリズムの環境において見られる。機械知能の分野の当業者によく知られているように、機械知能アルゴリズムは、複数の相互接続ノードのグラフによって表すことができる「知識モデル」の反復更新の実行を中心とする。各ノードは、その入力の関数を表す。いくつかのノードは、グラフへの入力を受信し、いくつかのノードは、１つ又は複数の他のノードからの入力を受信する一方で、いくつかのノードの出力は、他のノードの入力を形成し、いくつかのノードの出力は、グラフの出力を提供する（いくつかの事例では、所定のノードは、これらのグラフへの入力、グラフからの出力及び他のノードとの接続のすべてをも有し得る）。さらに、各ノードの関数は、１つ又は複数のそれぞれのパラメータ（例えば、重み）によってパラメータ化される。学習段階の間、その目標は、実験的な入力データセットに基づいて、全体としてのグラフが可能入力範囲に対する所望の出力を生成するように、様々なパラメータに対する値を見出すことである。これを行うための様々なアルゴリズムが当技術分野で知られており、確率的勾配降下法に基づく誤差逆伝播アルゴリズムなどが挙げられる。入力データに基づく複数の反復にわたり、パラメータは、それらの誤差を減少するために徐々に調節され、従って、グラフは解に収束する。次いで、後続の段階では、特定の入力セットを与えたときの出力の予測を行うため、又は、特定の出力セットを所与えたときの入力（原因）について推論するために、学習済みモデルを使用することができる。

典型的には、各ノードの少なくともいくつかの処理は、グラフの他のいくつかの又はすべてのノードとは無関係に実行でき、大きなグラフは、並行処理及び／又は並列処理の絶好の機会に触れる。各処理ユニットは、異なるノードと関連付けられた処理を実行するために使用することができるコンピュータである。この方法では、単一のニューラルネットワークを訓練するために、複数の処理ユニットを集合的に使用することができる。これは、各処理ユニットが異なるデータセットを使用してニューラルネットワークの各処理ユニットに対する重みの更新を導出するというデータ並列処理を適用することによって達成される。次いで、更新は、交換段階の間に処理ユニット間で同期化される。

従って、コンピュータのプロセッサ間でデータを交換する際、各プロセッサは、異なる時間に異なるデータフラグメントを交換する必要があることを理解することができる。その上、各プロセッサは、コンピュータ内のそれぞれのプロセッサの位置に依存する受信データに対して、データの格納及び減少（ｒｅｄｕｃｔｉｏｎ）などの異なる動作を実行するように構成することができる。従って、コンピュータ内の各プロセッサがそのそれぞれの動作を適切な時間に実行することを保証する必要がある。

記載されるように、コンピュータのプロセッサ間でデータが交換されることを保証するため、各プロセッサは、データ交換に必要な適切な動作を適切な時間に実行する必要がある。これを達成するための方法の１つは、コンピュータの各プロセッサに対して異なる実行可能コード（実行可能イメージ）のセットをコンパイルすることである。各プロセッサに対して異なるコードセットをコンパイルすることにより、各プロセッサは、プロセッサ間の適切なデータ交換を可能にするために、データ交換に適切な動作を異なる時間に実行するようにプログラムすることができる。しかし、各プロセッサに対して別個のプログラムをコンパイルすることに関し、プロセッサの数に応じてコンパイル時間が大幅に増大し、コンパイル時間が不必要に長くなる可能性があるとの問題がある。

本発明は、特に、機械学習モデルを使用して訓練を実行する際の使用に適用可能な、プロセッサ間でデータを交換するための技法を提供するが、この環境に限定されない。

本出願の実施形態によれば、コンピュータ内のプロセッサのセットのプロセッサの各々には、単一の実行可能なコンピュータコードのセットが提供され、実行可能なコンピュータコードは、実行可能イメージの形態を取ることができる。プロセッサのセットのプロセッサの各々には、インデックス値が提供され、インデックス値は、実行の間の特定の時間に実行可能なおコンピュータコードのセットにおいて表現される動作のうちのどの動作を実行するかを決定する。インデックス値に依存する動作は、プロセッサ間のデータの交換を制御する動作である。従って、プロセッサは、各プロセッサに対して別個の実行可能なコードのセットをコンパイルする必要なく、それぞれのインデックス値に応じて適切な交換動作を実行するように構成される。

第１の態様によれば、複数のプロセッサを含むコンピュータであって、各プロセッサが、コンピュータの演算段階の間にデータに関する動作を実行し、プリコンパイル済みの同期バリアに続いて、コンピュータの交換段階の間に少なくとも１つの他のプロセッサとデータを交換するように構成され、各プロセッサは、実行可能命令のセットと複数のプロセッサの中のプロセッサを識別するインデックス値とを含むプログラムを含む少なくとも１つのストレージと、実行可能命令によって指定された計算において使用するためのデータを格納する少なくとも１つのデータメモリと、インデックス値に応じて、コンピュータの交換段階の間に少なくとも１つのデータメモリと少なくとも１つの他のプロセッサとの間のデータ転送を実行するための動作を選択することと、交換段階の間にデータ転送を実行するために選択された動作を実行することと、を行うための実行可能命令の１つ以上のサブセットを実行するように配置された少なくとも１つの実行ユニットと、を含む、コンピュータが提供される。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、インデックス値に応じてデータ転送を実行するための動作を選択することは、データが転送される少なくとも１つの他のプロセッサを選択することを含む、コンピュータが提供される。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、動作は、インデックス値に応じて選択された少なくとも１つのデータメモリの領域と少なくとも１つの他のプロセッサとの間でデータを転送させる。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、少なくとも１つの実行ユニットは、インデックス値に基づく算術演算を実行することによって、データメモリの領域のアドレスを計算するように構成される。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、少なくとも１つの実行ユニットは、インデックス値に応じて実行可能命令のセットの少なくとも１つの命令に分岐するように構成され、少なくとも１つの命令の各々は、少なくとも１つの実行ユニットによって実行されると、データメモリの領域と少なくとも１つの他のプロセッサとの間でデータを転送させる。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、動作は、データメモリの領域に少なくとも１つの他のプロセッサから受信されたデータを格納することを含む。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、動作は、インデックス値に応じて、少なくとも１つのデータメモリに格納されたデータを選択することと、選択されたデータを少なくとも１つの他のプロセッサに送信することとを含む。

いくつかの実施形態では、最小のいくつかのプロセッサの少なくとも１つの実行ユニットは、データパケットを生成するために選択されたデータを処理するように構成され、データパケットは、選択されたデータと、少なくとも１つの他のプロセッサのバッファのアドレスを含むヘッダと、を含む。

いくつかの実施形態では、コンピュータは、データ転送において転送されるデータを静的にルーティングするように構成されたルーティングハードウェアを含む。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、動作は、少なくとも１つの他のプロセッサから受信されたデータと、少なくとも１つのデータメモリに格納されたデータを組み合わせることを含み、少なくとも１つの実行ユニットは、インデックス値に応じて、少なくとも１つのデータメモリからデータを選択するように構成される。

いくつかの実施形態では、プロセッサの各々について、少なくとも１つのデータメモリは、少なくとも１つの機械学習モデルに対する複数のデルタ重みを含み、少なくとも１つのデータメモリと少なくとも１つの他のプロセッサとの間のデータ転送は、少なくとも１つのデータメモリと少なくとも１つの他のプロセッサとの間の１つ又は複数のデルタ重みの転送を制御することを含む。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、少なくとも１つの実行ユニットは、インデックス値に応じて、データメモリから１つ又は複数のデルタ重みを選択し、少なくとも１つの他のプロセッサに選択された１つ又は複数のデルタ重みを転送させるように構成される。

いくつかの実施形態では、少なくともいくつかのプロセッサについて、少なくとも１つの実行ユニットは、インデックス値に応じて、データメモリから１つ又は複数のデルタ重みを選択することと、選択された１つ又は複数のデルタ重みを、複数のプロセッサの少なくとも１つの他のプロセッサから受信された１つ又は複数のデルタ重みと集約（ｒｅｄｕｃｅ）させることと、を行うように構成される。

いくつかの実施形態では、コンピュータの各プロセッサは、システムオンチップである。

第２の態様によれば、複数のプログラムを生成するためのコンピュータ実装方法が提供される。各プログラムは、複数のプロセッサを含むコンピュータの実行ユニットによる実行に適し、各プロセッサは、プログラムを保持するための少なくとも１つのメモリと、プログラムを実行するための少なくとも１つの実行ユニットと、データを保持するためのデータストレージとを有する。コンピュータ実装方法は、単一の実行可能命令のセットをコンパイルすることと、各プロセッサに対してプロセッサと関連付けられたインデックス値を決定することと、各プロセッサに対して、単一の命令のセット及びインデックス値を含むローカルプログラムを生成することを含む。各ローカルプログラムは、プロセッサに割り当てられると、コンピュータの演算段階の間にデータに関する動作を実行することと、インデックス値に応じて、コンピュータの交換段階の間に少なくとも１つのデータメモリと少なくとも１つの他のプロセッサとの間のデータ転送を実行するための動作を選択することと、プリコンパイル済みの同期バリアに続いて、交換段階の間にデータ転送を実行するために選択された動作を実行することと、をプロセッサの少なくとも１つの実行ユニットで実行させるようにスケジューリングされる。

いくつかの実施形態では、各ローカルプログラムについて、インデックス値に応じて、データ転送を実行するための動作を選択することは、データが転送される少なくとも１つの他のプロセッサを選択することを含む。

いくつかの実施形態では、各ローカルプログラムについて、動作は、インデックス値に応じて選択された少なくとも１つのデータメモリの領域と少なくとも１つの他のプロセッサとの間でデータを転送させる。

いくつかの実施形態では、各ローカルプログラムについて、少なくとも１つの実行ユニットは、インデックス値に基づく算術演算を実行することによって、データメモリの領域のアドレスを計算するように構成される。

いくつかの実施形態では、各ローカルプログラムについて、少なくとも１つの実行ユニットは、インデックス値に応じて実行可能命令のセットの少なくとも１つの命令に分岐するように構成され、少なくとも１つの命令は、少なくとも１つの実行ユニットによって実行されると、データメモリの領域と少なくとも１つの他のプロセッサとの間でデータを転送させる。

いくつかの実施形態では、各ローカルプログラムについて、動作は、データメモリの領域に少なくとも１つの他のプロセッサから受信されたデータを格納することを含む。

いくつかの実施形態では、各ローカルプログラムについて、動作は、インデックス値に応じて、少なくとも１つのデータメモリに格納されたデータを選択することと、選択されたデータを少なくとも１つの他のプロセッサに送信することとを含む。

いくつかの実施形態では、各ローカルプログラムは、プロセッサに割り当てられると、データパケットを生成するために選択されたデータを処理することを、プロセッサの少なくとも１つの実行ユニット上で実行させるようにスケジューリングされ、データパケットは、選択されたデータと、少なくとも１つの他のプロセッサのバッファのアドレスを含むヘッダと、を含む。

いくつかの実施形態では、各ローカルプログラムについて、動作は、少なくとも１つの他のプロセッサから受信されたデータと、少なくとも１つのデータメモリに格納されたデータを組み合わせることを含み、少なくとも１つの実行ユニットは、インデックス値に応じて、少なくとも１つのデータメモリからデータを選択するように構成される。

いくつかの実施形態では、各ローカルプログラムについて、少なくとも１つのデータメモリは、少なくとも１つの機械学習モデルに対する複数のデルタ重みを含み、少なくとも１つのデータメモリと少なくとも１つの他のプロセッサとの間のデータ転送は、少なくとも１つのデータメモリと少なくとも１つの他のプロセッサとの間の１つ又は複数のデルタ重みの転送を制御することを含む。

いくつかの実施形態では、各ローカルプログラムについて、少なくとも１つの実行ユニットは、インデックス値に応じて、データメモリから１つ又は複数のデルタ重みを選択し、少なくとも１つの他のプロセッサに選択された１つ又は複数のデルタ重みを転送させるように構成される。

いくつかの実施形態では、各ローカルプログラムについて、少なくとも１つの実行ユニットは、インデックス値に応じて、データメモリから１つ又は複数のデルタ重みを選択することと、選択された１つ又は複数のデルタ重みを、複数のプロセッサの少なくとも１つの他のプロセッサから受信された１つ又は複数のデルタ重みと集約させることと、を行うように構成される。

本発明をどのように実施できるかを示すために本発明をより良く理解するため、ここでは、例として、添付の図面を参照する。

ニューラルネットにおける分散訓練を示す概略図である。簡単な「ストリーミング」ラインａｌｌ－ｒｅｄｕｃｅアルゴリズムを実施するためのプロセッサのラインを示す概略図である。ａｌｌ－ｒｅｄｕｃｅ動作の概略図である。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作の段階の概略図である。ａｌｌ－ｒｅｄｕｃｅ動作の動作タイミングの概略図である。インデックス値に応じて選択された動作によるプロセッサ間のデータの交換の概略図である。インデックス値に応じて選択された動作によるプロセッサ間のデータの交換の概略図である。マルチタイルプロセッサの概略図である。マルチタイルプロセッサ内の演算及び交換段階を示す概略図である。バルク同期並列システムのデータの交換を示す。コンピュータのマルチタイルプロセッサの配列を示す。コンピュータのタイル間のデータパケットの交換を示す。マルチタイルプロセッサのタイルの簡略化された概略図である。マルチプロセッサコンピュータのタイルの配列を示す。コンピュータの各プロセッサに対してプログラムをコンパイルするための方法を示す。インデックス値に応じて選択された動作によるプロセッサ間のデータの交換の概略図である。

本発明の態様は、機械学習作業負荷に対するアクセラレータとして動作するように設計されたマルチタイルプロセッサを含むコンピュータの環境において開発されてきた。しかし、本発明は、機械学習の環境に限定されない。アクセラレータは、複数の相互接続プロセッサを含む。いくつかの実施形態では、各プロセッサは、マルチタイルプロセッサの形態を取ることができる。本発明の実施形態を実装するために使用することができるマルチタイルプロセッサについては、参照により本明細書に組み込まれる米国特許出願第１５／８８６３１５号明細書で説明されている。その代替として、各プロセッサは、単に、単一のモノリシックプロセッサの形態を取ることができる。

ここでは、添付の図を参照して、本発明の例示的な実施形態をより詳細に説明する。

図１２を参照すると、図１２は、本出願の実施形態によるコンピュータ７００の例を示している。コンピュータ７００は、複数のプロセッサ２ｉ、２ｉｉ、２ｉｉｉ、２ｉｖ、２ｖ、２ｖｉ（集合的にプロセッサ２と呼ばれる）を含む。プロセッサ２の各々は、別名チップとして知られている集積回路において具体化することができる。従って、プロセッサ２の各々は、システムオンチップである。

複数のプロセッサ２の各々は、それぞれのプロセッサ２の少なくとも１つの実行ユニット４２０によって実行可能な命令を格納する少なくとも１つの命令メモリ４１０を含む。また、各プロセッサ２は、インデックス値を格納する少なくとも１つのストレージ４１５も含む。図１２では、ストレージのユニット４０５、４１０、４１５の各々は、別個の記憶素子として示されているが、いくつかの実施形態では、これらの２つ以上は、単一のメモリユニットの一部を形成してもよい。ストレージのユニット４０５、４１０、４１５の各々は、隣接するメモリバンクとして示されているが、１つ又は複数のストレージのユニット４０５、４１０、４１５の各々は、それぞれのプロセッサ２全体にわたって分散された複数のメモリユニットを含んでもよい。同様に、少なくとも１つの実行ユニット４２０の各々は、複数の実行ユニットであってもよい。インデックスストレージ４１５は、レジスタであってもよい。

命令メモリ４１０内の命令のセットとインデックスストレージ４１５内のインデックスは、一体となって、それぞれのプロセッサ２に対するプログラムを構成する。各プロセッサ２は、データメモリ４０５に保持されたデータ値を修正するため、並びに、他のプロセッサ２への及び他のプロセッサ２からのデータ転送を行うという動作を実行するために、命令メモリ４１０に保持された命令を実行するように構成された少なくとも１つの実行ユニットを含む。命令メモリ４１０内の命令は、プロセッサ２の各々において同じである。しかし、インデックスストレージ４１５に保持されたインデックス値は、プロセッサ２間で異なる。コンピュータ７００の各プロセッサ２は、そのそれぞれのインデックスストレージ４１５に異なるインデックス値を格納する。各プロセッサ２によってストレージ４１５に保持されたインデックス値は、コンピュータ７００の複数のプロセッサ２のうちのそのプロセッサ２を一意的に識別する。プロセッサ２の各々は、コンピュータ７００のプロセッサ２間で適切にデータを転送するために、その格納されたインデックス値に応じて、異なるデータ転送動作セットを実行するように構成される。インデックス値は、メモリ４０５からどのデータを転送するかを制御し、受信データに関して実行される動作を制御する。

ルーティングハードウェア（図１２には図示せず）は、プロセッサ２間でデータをルーティングするためにコンピュータ７００内に位置する。ルーティングハードウェアは、図１０に関してより詳細に説明されるように、外部の相互接続部７２の形態を取ることができる。データは、プロセッサ２間においてデータパケットの形態で送信される。ルーティングハードウェアは、データパケットを静的にルーティングするように構成される。静的なルーティングでは、ルーティングハードウェアは、データパケットをルーティングするための固定ルーティング情報を含むルーティングテーブルを含む。

コンピュータ７００は、演算段階と交換段階を交互に行う。演算段階の間、コンピュータ内のプロセッサ２の各々は、プリコンパイル済みの同期バリアに達するまで演算を実行する。バリアの後、コンピュータ７００は、交換段階に移動し、交換段階では、プロセッサ２はデータを交換し合う。

命令メモリ４１０内の命令のいくつかは、実行ユニット４２０によって実行されると、データメモリ４０５に格納されたデータを使用して実行ユニット４２０に計算を実行させる。命令メモリ４１０内の命令のいくつかは、実行ユニット４２０によって実行されると、データメモリ４０５に保持されたデータを別のプロセッサ２に転送させる。命令メモリ４１０内の命令のいくつかは、実行ユニット４２０によって実行されると、さらなるプロセッサ２から受信されたデータを、プロセッサのデータメモリ４０５に格納させる。

従って、命令は、実行ユニット４２０によって、その実行ユニット４２０を含むプロセッサ２とコンピュータ７００のさらなるプロセッサとの間のデータ転送を制御するために実行される。インデックスストレージ４１５に格納されたインデックスは、実行ユニット４２０によって、データ転送を制御するために使用される。これは、異なる方法で実施することができる。いくつかの実施形態では、命令メモリ４１０からの命令は、入力としてインデックス値を取り入れ、実行されると、インデックス値に基づいて実行される計算に応じてどのようにデータ転送を実行するかを実行ユニット４２０に決定させる。いくつかの実施形態では、インデックス値は、あるデータ転送動作を実行するために、命令メモリ４１０から特定の命令を選択するために使用される。

インデックス値は、実行ユニット４２０によって、複数のプロセッサ２のうち、データメモリ４０５からデータを転送する特定のプロセッサを選択するために使用することができる。一例では、プロセッサ２ｉは、インデックスストレージ４１５に格納されたインデックス値に基づいて、複数のプロセッサからプロセッサ２ｉｉを選択する。次いで、実行ユニット４２０は、選択されたプロセッサ２ｉｉにデータを転送させる。それを行うため、実行ユニット４２０は、プロセッサ２ｉｉのアドレスを含むデータパケットを生成するためにデータを処理し、次いで、パケットを発送し、パケットは、コンピュータ２のルーティングハードウェアによってプロセッサ２ｉｉに提供される。

インデックス値は、実行ユニット４２０によって、データが格納される送信先プロセッサのアドレスを選択するために使用することができる。例えば、プロセッサ２ｉの実行ユニット４２０は、プロセッサ２ｉのインデックス値に基づいて、プロセッサ２ｉｉのデータメモリ２０５内のアドレスを決定する。次いで、実行ユニット４２０は、データが格納される予定のプロセッサ２ｉｉのメモリ４０５内のアドレスを含む１つ又は複数のヘッダを含む１つ又は複数のデータパケットを生成するために、プロセッサ２ｉｉに転送される予定のデータを処理する。実行ユニット４２０は、これらのデータパケットをプロセッサ２ｉｉに送信させ、データパケットは、データパケットのヘッダに示されるアドレスのメモリ４０５に格納される。

インデックス値は、実行ユニット４２０によって、データメモリ４０５から転送する特定のデータを選択するために使用することができる。実行ユニット４２０は、転送するデータのデータメモリ４０５内のアドレスを決定する。次いで、実行ユニット４２０は、選択されたデータをプロセッサのうちの１つ（例えば、プロセッサ２ｉｉ）に転送させる。実行ユニットは、入力としてインデックス値のアドレスを取り入れて計算を実行することによって、又は、特定のデータを転送させるための命令を命令メモリ４０５から選択することによって、転送するデータのデータメモリ４０５内のアドレスを決定することができる。

インデックス値は、実行ユニット４２０によって、プロセッサ２における受信データの取扱いを制御するために使用することができる。例えば、プロセッサ２ｉｉがプロセッサ２ｉからデータを受信すると、プロセッサ２ｉｉの実行ユニット４２０は、それぞれのインデックス値を使用して、データが格納されるデータメモリ４０５内の場所を制御することができる。それに加えて又はその代替として、プロセッサ２ｉｉがプロセッサ２ｉからデータを受信すると、プロセッサ２ｉｉの実行ユニット４２０は、それぞれのインデックス値を使用して、データメモリ４０５からデータを選択し、受信データとメモリ４０５から選択されたデータの両方に関与する動作（例えば、データを組み合わせる）を実行することができる。次いで、プロセッサ２ｉｉは、動作の結果をメモリ４０５に格納することができる。

図１２では、プロセッサ２ｉとプロセッサ２ｉｉとの間のデータ転送のみが示されているが、コンピュータ７００の他のプロセッサ２間でデータ転送を行えること、並びに各プロセッサ２に対して、プロセッサ２ｉ及び２ｉｉに対して上記で説明される方法のいずれかで実行する特定のデータ転送動作を選択するためにそれぞれのプロセッサ２のインデックス値を使用できることが理解されよう。

本発明の実施形態は、機械学習モデルを訓練する際に、コンピュータのプロセッサ間のデータの交換に対して適用することができる。開示される技法のそのような例示的な適用を説明するため、図１を参照すると、図１は、ニューラルネットワークを訓練するための分散アーキテクチャの概略ブロック図を示している。訓練データ源１００が提供される。この訓練データ源１００は、訓練しているニューラルネットワークモデルに適用可能な訓練データを保持することができるデータベース又は他の任意の種類のデータストアであり得る。ニューラルネットワークモデルによる処理は、それ自体が、複数のプロセッサ１１０ａ、１１０ｂ、１１０ｃなどにわたって分散される。図１では、３つのユニットのみが示されているが、いかなる数のプロセッサも利用できることが容易に理解されよう。各プロセッサ１１０ａ、ｂ、ｃは、訓練データ源１００から訓練データのバッチを受信する。各プロセッサ１１０ａ、ｂ、ｃは、モデルを定義するパラメータ１１２ａ、１１２ｂ、１１２ｃのセットを保持する。訓練データの受信バッチは、計算関数１１４の現行のパラメータセットと併せて処理され、計算関数１１４の結果は、いわゆるデルタを生成するために使用され、デルタは、訓練データのバッチ及び現行のパラメータセットに計算関数を適用した結果として生じたオリジナルのパラメータと新しいパラメータとの差を表す。多くのニューラルネットワークでは、これらのパラメータは、「重み」と呼ばれ、従って、デルタ値は、「デルタ重み」と呼ばれる。図１では、重みは、１１２ａ、ｂ、ｃでラベル付けされ、デルタ重みは、１１６ａ、ｂ、ｃでラベル付けされている。実際には、重み及びデルタ重みは、プロセッサによってアクセス可能な適切なストアに格納されることが理解されよう。重み及びデルタ重みをローカルメモリに保持することができる場合は、訓練プロセスは、よりはるかに効率的なものになる。

図１のアーキテクチャの目標は、３つの別個のモデルを訓練することではなく、単一のモデルを分散して訓練することである。従って、目的は、各プロセッサにおいてモデルパラメータ（又は重み）を単一の共通のセットに収束させることである。任意の特定の重みセットから始め、各プロセッサにおいて受信された訓練データのバッチが同一ではないと想定すると、各プロセッサにおいて各計算関数によって生成されるデルタ重みにばらつきが生じることになる。従って、必要なのは、訓練データのバッチの各反復の後にプロセッサにわたってデルタ重みを分散させるための方法である。これは、図１に図示されており、組合せ機能１１８は、各プロセッサからデルタ重みを受信し、平均関数など、デルタ重みを集約（ｒｅｄｕｃｅ）する数学関数を実行する。次いで、組合せ機能１１８の出力が各プロセッサ内の組合せ回路１２０ａ、１２０ｂ、１２０ｃにそれぞれフィードバックされる。従って、新しい重みセットは、オリジナルの重みと組合せ機能１１８からの組み合わされた出力との組合せとして生成され、新しい重み１１８ａ、１１８ｂ、１１８ｃは、ローカルメモリに戻されて格納される。次いで、訓練データの次のバッチが各プロセッサに供給され、プロセスは複数回繰り返される。プロセッサの開始重みが同じである場合は、各反復の後、それらの重みは、再び同じ新しい値にリセットされる。デルタ重みは、組合せ機能１１８に供給され、組合せ機能１１８で集約され、次いで、それらの集約形態でプロセッサの各々に供給され、オリジナルの重みと組み合わせることができる。

プロセッサ間でデータの交換を効率的に実施できる方法の１つは、コレクティブの使用であり、コレクティブは、コンピュータにおいてデータを処理する際に一般的に使用されるルーチンである。それらのコレクティブは、複数の異なるプロセスにわたってデータの共有及び処理を可能にするルーチンであり、複数の異なるプロセスは、同じプロセッサ上で実行されているものであっても、異なるプロセッサ上で実行されているものであってもよい。例えば、１つのプロセスがデータストアからデータを読み取る場合、そのデータを他のプロセスと共有するために、「ブロードキャスト（ｂｒｏａｄｃａｓｔ）」プロセスを使用することができる。別の例は、複数のプロセスにおいて特定の関数の結果が必要な場合である。「集約（ｒｅｄｕｃｔｉｏｎ）」は、複数のプロセスの各々からのデータ値に演算関数の適用を必要とした結果である。「ｇａｔｈｅｒ」及び「ｓｃａｔｔｅｒ」コレクティブは、複数のデータアイテムを取り扱う。あるコレクティブは、機械学習アプリケーションの処理においてますます重要になった。

ＭＰＩ（メッセージパッシングインタフェース）は、多くの並列演算アーキテクチャに適用することができるメッセージパッシング規格である。ＭＰＩは、機械学習に適用可能な多くのコレクティブを定義する。そのようなコレクティブの１つは、「ａｌｌｒｅｄｕｃｅ」と呼ばれる。ａｌｌｒｅｄｕｃｅ動作は、異なるソースプロセスからの複数のデータ値に作用する演算関数の結果を受信プロセスで提供できるようにする。受信プロセスは、ソースプロセスのうちの１つであり得ることや、複数の受信プロセスが存在し得ることに留意されたい。ａｌｌｒｅｄｕｃｅコレクティブは、複数のソースプロセスからのデータ値を集約し、その結果をすべてのソースプロセス（集約された結果の受信プロセスとして動作する）に分散する。ＭＰＩ規格によれば、ａｌｌｒｅｄｕｃｅコレクティブは、ｒｅｄｕｃｅコレクティブにおいてすべてのソースプロセスからのデータ値を集約し（例えば、プロセスのうちの１つで）、次いで、各ソースプロセスに結果をブロードキャストすることによって実施される。

図１Ａは、５つのプロセッサＮ_０・・・Ｎ_５のライン接続トポロジにおいてａｌｌｒｅｄｕｃｅコレクティブをどのように実施できるかを示す概略図である。これらのプロセッサは、組合せ機能が提供される図１のプロセッサに相当し得る。プロセッサは、ライン構成で接続されるように示されており、各プロセッサは、「順方向」リンクＬ_Ｆ及び「逆方向」リンクＬ_Ｂによってその近隣のプロセッサに接続される。図に示されるように、方向表現が含意するように、順方向リンクは、図１Ａでは、左から右にプロセッサを接続し、逆方向リンクは、図１Ａでは、右から左にプロセッサを接続する。各プロセッサは、２００で指定される処理能力及び２０２で指定される格納能力を有する。また、各プロセッサは、リンクＬ_Ｆ／Ｌ_Ｂを介してその近隣のプロセッサとの接続を可能にする１つ又は複数のリンクインタフェースも有する。

プロセッサ間でデルタ重みを交換するために使用することができるａｌｌｒｅｄｕｃｅコレクティブは、図２に示される。図２は、開始状態Ｓ１での４つのプロセッサの各々における部分値又は「部分」Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３の集合（ベクトル）を示す。この環境では、プロセッサは、プロセッサのネットワークのプロセッサである。各プロセッサＮ_０、Ｎ_１、Ｎ_２、Ｎ_３は、４つの「対応する」部分Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３を有することに留意されたい。すなわち、各部分は、プロセッサｎ上のそのベクトルにおけるＰ_０（ｎ）が、プロセッサｎ＋１上のそのベクトルにおけるＰ_０（ｎ＋１）と同じ位置を有するようなベクトルの位置を有する。添え字（ｎ）は、その部分が存在するプロセッサを示すために使用される（従って、Ｐ_０（０）は、プロセッサＮ_０上の部分Ｐ_０である）。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒパスでは、対応する部分が集約され、プロセッサのうちの１つに集約が提供される。例えば、部分Ｐ_０（０）、Ｐ_０（１）、Ｐ_０（２）、Ｐ_０（３）は、（ｒ_０に）集約され、プロセッサＮ_０に配置される。同様に、部分Ｐ_１（０）、Ｐ_１（１）、Ｐ_１（２）、Ｐ_１（３）は、（ｒ_１に）集約され、プロセッサＮ_１に配置される。そして以下同様に続き、中間状態Ｓ２では、各プロセッサは、集約ｒ_０、ｒ_１、ｒ_２、ｒ_３のうちの１つを有する。説明されるように、集約は、任意の組合せ関数

によるものであり得、独立演算子（例えば、ｍａｘ）又は結合演算子＝Ｐ_１（Ｎ_０）^＊Ｐ_１（Ｎ_１）^＊Ｐ_１（Ｎ_２）^＊Ｐ_１（Ｎ_３）が含まれ得る。次いで、ａｌｌｇａｔｈｅｒパスでは、状態Ｓ３を起動させるために、各集約がすべてのプロセッサに提供され、ここでは、各プロセッサは、すべての４つの集約を保持する。Ｓ１では、「対応する」部分（例えば、Ｐ_０（０）、Ｐ_０（１）、Ｐ_０（２）、Ｐ_０（３））は異なり得るのに対して、状態Ｓ３では、各集約（例えば、ｒ_０であり、ｒ_ｉ＝ｆ｛（Ｐ_ｉ（０），Ｐ_ｉ（１），Ｐ_ｉ（２），Ｐ_ｉ（３））｝）はすべてのプロセッサにおいて同じであることに留意されたい。機械学習では、部分値Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３の集合はベクトルである。部分（例えば、更新された重み）のベクトルは、訓練の間にモデルの各パスにおいて生成される。状態Ｓ３での各プロセッサにおけるリダクションｒ_０、ｒ_１、ｒ_２、ｒ_３は、完全な集約ベクトルである。機械学習の環境では、各部分は、モデルのパラメータに対する更新デルタの集合であり得る。その代替として（本明細書ではさらなる説明が行われない配列では）、各部分は、更新パラメータであり得る。

従って、記載されるように、ａｌｌｒｅｄｕｃｅ動作は、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作と、それに続くａｌｌｇａｔｈｅｒ動作からなる。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作の間、各ノードは、部分の異なる要素を交換する。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒが完了すると、すべてのノードは、最終的なａｌｌｒｅｄｕｃｅのｎ分の１を有する。ａｌｌｇａｔｈｅｒの間、各ノードは、ｎ－１ステップ後にすべてのノードが完全なデータセットを有するまで、最終的なａｌｌｒｅｄｕｃｅの追加の１／ｎを受信する。

図３Ａ及び３Ｂは、６つの「仮想」ＩＤリングを使用してｒｅｄｕｃｅ－ｓｃａｔｔｅｒ／ａｌｌｇａｔｈｅｒの例を示す。これらは、本明細書では、「論理」リングとも呼ばれる。図３Ａは、複数の仮想リングにおける部分の集約を示す概略図である。各部分は、６つのフラグメントに分けられる。図３Ａでは、大文字Ｒ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌの各々は、各プロセッサに格納された部分の異なるフラグメントを示す。文字は、互いに集約する予定の対応するフラグメントを示し、それらのフラグメントに対する「仮想」又は「論理」リングを定義する。図３Ａを見ると、部分Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３、Ｐ_４、及びＰ_５の各々における「Ｒ」フラグメントは、結果ベクトル

の単一のフラグメントに集約される。Ｙ、Ｇ、Ｂ、Ｐ、Ｌフラグメントに対しても同様である。

図３Ｂは、タイミング図を示し、水平軸上の時間は、ａｌｌｒｅｄｕｃｅプロセスの各ステップにおけるデータ交換及び演算を示す。図３Ａ及び３Ｂでは、ａｌｌｒｅｄｕｃｅプロセスは、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ段階と、それに続くａｌｌｇａｔｈｅｒ段階によって実行される。

図３Ａ及び３Ｂの表記は以下の通りである。各部分は、Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３、Ｐ_４、及びＰ_５で示される。プロセスの開始時、各部分は、それぞれのプロセッサＮ_０、Ｎ_１、Ｎ_２、Ｎ_３、Ｎ_４、Ｎ_５上に格納されている。各フラグメントは、フラグメントの順番（ｆｒａｇｍｅｎｔｏｒｄｉｎａｎｔ）及び集約されると考えられる仮想リングにおける位置に従ってラベル付けされる。例えば、ＲＡ_０は、プロセッサＮ_０－Ｎ_１－Ｎ_２－Ｎ_３－Ｎ_４－Ｎ_５によって形成される仮想リングの第１のフラグメントであるため、部分Ｐ_０のＲフラグメントを示す。ＲＡ_１は、プロセッサＮ_１で計算されたＲフラグメントを示し、その仮想リングの第２の位置にある。ＹＡ_０は、プロセッサＮ_１で計算されたＹフラグメントを示す。「０」の添え字は、それがその仮想リングの第１のフラグメントであることを示し、Ｙリングは、Ｎ_１－Ｎ_２－Ｎ_３－Ｎ_４－Ｎ_５－Ｎ_０である。特に、Ａに付けられる添え字は、仮想リングを反映するものであり、物理的なプロセッサ（又は部分）には相当しないことに留意されたい。図３Ａは、順方向リンクの仮想リングのみを示すことに留意されたい。図３Ｂは、逆方向リンクにおいて同等のプロセスが起こっていることを示し、フラグメントは、Ｂとして示されている。

ステップ１では、各仮想リングの第１のフラグメント（Ａ_０）は、プロセッサから次の隣接するプロセッサに転送され、プロセッサでの対応するフラグメントと集約される。すなわち、ＲＡ_０は、Ｎ_０からＮ_１に移動し、ＲＡ_１と集約され、ＲＡ_０，１を形成する。０，１の表記は、仮想リングの第１及び第２のフラグメントの集約によってフラグメントが形成されることを示す。同じステップにおいて、各仮想リングのＡ_０フラグメントが同時に送信されることに留意されたい。すなわち、Ｎ_１とＮ_２との間のリンクはＹＡ_０を送信するために使用され、Ｎ_２とＮ_３との間のリンクはＧＡ_０を送信するために使用されるなど、以下同様である。次のステップでは、対応する集約されたフラグメントは、順方向リンク上で次の隣接するプロセッサに送信される。例えば、ＲＡ_０，１は、Ｎ_１からＮ_２に送信され、ＹＡ_０，１は、Ｎ_２からＮ_３に送信される。明確にするため、図３Ａにおいてすべてのフラグメントに番号が付けられているわけではないことに留意されたい。完全なフラグメント及び番号のセットは、図３Ｂに示されている。このプロセスは、５つのステップにわたって続けられる。５つのステップが完了した後には、各プロセッサにすべてのフラグメントの集約が存在する。第５のステップの終了時には、この集約は、フラグメントの対応する各リングの最後のプロセッサにある。例えば、Ｒ集約は、プロセッサＮ_５にある。

ａｌｌｇａｔｈｅｒ段階の開始は、各仮想リングにおける最後のプロセッサから最初のプロセッサへの送信によって始まる。従って、Ｒフラグメントの最終的な集約はプロセッサＮ_５で終了し、ａｌｌｇａｔｈｅｒ段階の第１のステップの準備が整う。Ｙフラグメントの最終的な集約はプロセッサＮ_０で終了する。ａｌｌｇａｔｈｅｒ段階の次のステップでは、集約されたフラグメントは再び、次の隣接するプロセッサに送信される。従って、完全に集約されたＲフラグメントは、ここではＮ_２にあり、完全に集約されたＹフラグメントはここではＮ_３にあるなど、以下同様である。この方法では、各プロセッサは、ａｌｌｇａｔｈｅｒ段階の終了時には、部分の完全に集約されたすべてのフラグメントＲ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌで終了する。

本発明の例示的な実施形態は、機械学習環境におけるデータの交換を制御するために適用することができる。具体的には、例示的な実施形態は、図２、３Ａ及び３Ｂに関して上記で説明されるｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作の間のデータの交換を制御するために適用することができる。

図４を参照すると、図４は、図１２に関して説明されるコンピュータ７００の例示的な実施形態を示している。この例示的な実施形態は、上記で説明されるように、機械学習環境におけるプロセッサ間のデータの交換を制御するために適用することができる。図４では、データは、交換段階の特定の一部の間にコンピュータ７００のプロセッサ２間で交換される。

図４に示されるように、特定の一部の間、各プロセッサ２の実行ユニット４２０は、インデックスストレージ４１５に保持されたインデックス値に応じて、データメモリ４０５からデータフラグメント／要素を選択するように構成される。プロセッサＮ_０の実行ユニット４２０は、プロセッサＮ_０によってストレージ４１５に保持されたインデックス値に応じて、ＲＡ_０とラベル付けされたデータを選択してプロセッサＮ_１に転送する。プロセッサＮ_１の実行ユニット４２０は、プロセッサＮ_１によって保持されたインデックス値に応じて、ＹＡ_０とラベル付けされたデータを選択してプロセッサＮ_２に転送する。プロセッサＮ_２の実行ユニット４２０は、プロセッサＮ_２によって保持されたインデックス値に応じて、ＧＡ_０とラベル付けされたデータを選択してプロセッサＮ_３に転送する。プロセッサＮ_３の実行ユニット４２０は、プロセッサＮ_３によって保持されたインデックス値に応じて、ＢＡ_０とラベル付けされたデータを選択してプロセッサＮ_４に転送する。プロセッサＮ_４の実行ユニット４２０は、プロセッサＮ_４によって保持されたインデックス値に応じて、ＰＡ_０とラベル付けされたデータを選択してプロセッサＮ_５に転送する。プロセッサＮ_５の実行ユニット４２０は、プロセッサＮ_５によって保持されたインデックス値に応じて、ＬＡ_０とラベル付けされたデータを選択してプロセッサＮ_０に転送する。

各プロセッサ２がインデックス値を使用して転送するデータを選択することに加えて、別のプロセッサ２からデータパケットが受信され次第、各プロセッサ２の実行ユニット４２０は、インデックスストレージ４１５に格納されたインデックス値に応じて、受信データパケットから導出されたデータフラグメントをメモリ４０５のどこに格納するかを決定する。また、各プロセッサ２の実行ユニット４２０は、受信データと組み合わせる他の任意のデータフラグメントの選択も行う。例えば、プロセッサＮ_０の実行ユニット４２０は、プロセッサＮ_５からＬＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｌに保持されたデータＬＡ_１と集約するという命令を実行する。プロセッサＮ_１の実行ユニット４２０は、プロセッサＮ_０からＲＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｒに保持されたデータＲＡ_１と集約するという命令を実行する。プロセッサＮ_２の実行ユニット４２０は、プロセッサＮ_１からＹＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｙに保持されたデータＹＡ_１と集約するという命令を実行する。プロセッサＮ_３の実行ユニット４２０は、プロセッサＮ_２からＧＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｇに保持されたデータＧＡ_１と集約するという命令を実行する。プロセッサＮ_４の実行ユニット４２０は、プロセッサＮ_３からＢＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｂに保持されたデータＢＡ_１と集約するという命令を実行する。プロセッサＮ_５の実行ユニット４２０は、プロセッサＮ_４からＰＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｐに保持されたデータＰＡ_１と集約するという命令を実行する。プロセッサＮ_０の実行ユニット４２０は、プロセッサＮ_５からＬＡ_０とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｌに保持されたデータＬＡ_１と集約するという命令を実行する。

転送されるデータフラグメントの各々は、図３Ａ及び３Ｂに示されるデータフラグメントに相当し得る。そのような事例では、各データフラグメントは、各プロセッサ２によってその訓練データを使用して計算されたデルタ値の部分集合に相当する。集合的に、メモリ４０５に保持され、文字Ｒ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌによって表されるデータ値は、それぞれのプロセッサ２に提供された訓練データを使用して計算されるデルタ値の部分ベクトルを形成する。図４は、図２に示されるｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作の第１のステップを示し、各プロセッサ２には、１つ又は複数のデルタ重みを含む集約されたフラグメントのセットが提供される。受信側のプロセッサ２に転送される１つ又は複数のデルタ重みの各フラグメントは、その受信側のプロセッサのメモリ４０５に保持されたデルタ重みの対応するフラグメントと組み合わされる。例えば、図４に示されるステップにおいて、フラグメントＲＡ_０は、プロセッサＮ_０からプロセッサＮ_１に転送され、フラグメントＲＡ_１と組み合わされる。フラグメントを転送し、後続のステップにおいてそれらを組み合わせることにより、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作が実行される。各ステップでは、プロセッサ間で交換されるフラグメントは、インデックス値ストレージ４１５に保持されたインデックス値に依存する。各プロセッサ２の少なくとも１つの実行ユニットは、このインデックス値を使用して、どのフラグメントを送信するか及び受信した各フラグメントをメモリのどこに格納するかを決定する。

図４Ａを参照すると、図４Ａは、ａｌｌｇａｔｈｅｒプロセスの間のデータの交換を示しており、ａｌｌｇａｔｈｅｒプロセスは、図２に示されるａｌｌｒｅｄｕｃｅプロセスの一部として、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒプロセスに続いて実行される。図２では、プロセッサのメモリ４０５に示されるフラグメントの各々は、集約されたフラグメント、すなわち、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ動作の開始前に図４のメモリに存在する対応するフラグメントの組合せである。

各プロセッサ２の少なくとも１つの実行ユニット４２０は、格納しているインデックス値に応じて、集約されたフラグメントを選択して渡すように構成される。プロセッサＮ_０の実行ユニット４２０は、プロセッサＮ_０によって保持されたインデックス値に応じて、

とラベル付けされたデータを選択してプロセッサＮ_１に転送する。プロセッサＮ_１の実行ユニット４２０は、プロセッサＮ_１によって保持されたインデックス値に応じて、

とラベル付けされたデータを選択してプロセッサＮ_２に転送する。プロセッサＮ_２の実行ユニット４２０は、プロセッサＮ_２によって保持されたインデックス値に応じて、

とラベル付けされたデータを選択してプロセッサＮ_３に転送する。プロセッサＮ_３の実行ユニット４２０は、プロセッサＮ_３によって保持されたインデックス値に応じて、

とラベル付けされたデータを選択してプロセッサＮ_４に転送する。プロセッサＮ_４の実行ユニット４２０は、プロセッサＮ_４によって保持されたインデックス値に応じて、

とラベル付けされたデータを選択してプロセッサＮ_５に転送する。プロセッサＮ_５の実行ユニット４２０は、プロセッサＮ_５によって保持されたインデックス値に応じて、

とラベル付けされたデータを選択してプロセッサＮ_０に転送する。これらのデータ転送の各々は、ａｌｌｇａｔｈｅｒ動作の第１のステップを完了する。後続のステップを実行することにより、各プロセッサ２には、集約された各フラグメントが提供される。

各プロセッサ２がインデックス値を使用して転送するデータを選択することに加えて、別のプロセッサ２からデータが受信され次第、受信側のプロセッサは、インデックスストレージ４１５に格納されたインデックス値に応じて、データをメモリのどこに格納するかを決定する。例えば、プロセッサＮ_０の実行ユニット４２０は、プロセッサＮ_５から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｌに格納するという命令を実行する。プロセッサＮ_１の実行ユニット４２０は、プロセッサＮ_０から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｒに格納するという命令を実行する。プロセッサＮ_２の実行ユニット４２０は、プロセッサＮ_１から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｙに格納するという命令を実行する。プロセッサＮ_３の実行ユニット４２０は、プロセッサＮ_２から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｇに格納するという命令を実行する。プロセッサＮ_４の実行ユニット４２０は、プロセッサＮ_３から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｂに格納するという命令を実行する。プロセッサＮ_５の実行ユニット４２０は、プロセッサＮ_４から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｐに格納するという命令を実行する。プロセッサＮ_０の実行ユニット４２０は、プロセッサＮ_５から

とラベル付けされたデータを受信し、そのインデックスに応じて、このデータをメモリ４０５内の場所Ｌに格納するという命令を実行する。

各プロセッサは、図４及び４Ａのメモリに示されるものなどのデータをさらなるプロセッサに転送するための完全な命令のセットを含み、インデックス値は、データ転送を制御する。インデックスは、異なる方法でデータ転送を制御することができる。

いくつかの実施形態では、各プロセッサによって保持されるインデックス値は、メモリ４０５から別のプロセッサ２への適切なデータフラグメントの転送を実行するために各実行ユニット４２０によって実行される命令のセットの命令を決定する。また、各プロセッサ２は、フラグメントを受信してメモリ４０５内の適切な場所に格納するための完全な命令のセットも含む。各プロセッサ２によって保持されるインデックス値は、受信されたフラグメントを適切な場所に格納するためにプロセッサ２の少なくとも１つの実行ユニット４２０によって実行される命令のセットの命令を決定する。実行ユニット４２０は、この事例では、関連するデータ転送を実行するために実行される特定の命令のセットを選択するために、インデックス値に依存する分岐動作を実行する。

いくつかの実施形態では、各プロセッサ２の少なくとも１つの実行ユニット４０２は、データが読み取られるか又は書き込まれるデータメモリ４０５内のアドレスを決定するために、インデックス値を入力として使用して算術演算を実行する。

図４及び４Ａでは、プロセッサ２の各々は、統合されたデータメモリ４０５及び命令メモリ４１０を有するものとして示されている。しかし、これらのメモリは、それらのそれぞれのプロセッサ２全体にわたって分散させることができる。いくつかの実施形態では、各プロセッサ２は、複数の処理ユニットを含み得、複数の処理ユニットは、本明細書ではタイルと呼ばれる。そのような配列は、参照により本明細書に組み込まれる米国特許出願第１５／８８６３１５号明細書で説明されている。各タイルは、それが属するプロセッサ２に対するインデックスのコピーを含み、図１２、４及び４Ａを参照して上記で論じられるものなど、適切なデータ転送動作を実施するためにインデックス値に依存するその命令のセットから動作を実行するように構成される。

図４Ｂを参照すると、図４Ｂは、マルチタイルプロセッサ２の例を示している。プロセッサ２は、複数のプロセッサタイル４のアレイ６と、タイル４間を接続する相互接続部３４とを含む。プロセッサ２は、同じＩＣパッケージにパッケージ化された複数のダイのうちの１つとして単独で実装することができる。相互接続部３４は、本明細書では、タイル４がデータを交換できるようにするためのものであるため、「交換ファブリック」３４と呼ぶこともできる。各タイル４は、プロセッサ及びメモリのそれぞれの例を含む。例えば、例示として、プロセッサ２は、何百もの又は千を超えるタイル４を含み得る。完全を期すため、本明細書で言及される「アレイ」は、必ずしも特定の次元数又は物理的なレイアウトのタイル４を含意するとは限らないことも留意されたい。

実施形態では、各プロセッサ２は、１つ又は複数の外部のリンク８も含み、プロセッサ２を１つ又は複数の他のプロセッサ（例えば、同じプロセッサ２の１つ又は複数の他の例）に接続できるようにする。これらの外部のリンク８は、プロセッサ２をホストプロセッサに接続するための１つ又は複数のプロセッサ・ホスト間リンク、並びに／或いは、同じＩＣパッケージ若しくはカード上の又は異なるカード上のプロセッサ２の１つ又は複数の他の例とまとめて接続するための１つ又は複数のプロセッサ間リンクのうちの１つ又は複数を含み得る。例示的な一配列では、プロセッサ２は、プロセッサ２によって処理されるべき入力データという形態で、プロセッサ・ホスト間リンクのうちの１つを介してプロセッサに接続されるホストプロセッサ（図示せず）から作業を受信する。プロセッサ２の複数の例は、プロセッサ間リンクによってまとめてカードに接続することができる。従って、ホストは、複数のプロセッサ２を有するコンピュータにアクセスし、各プロセッサ２は、ホストアプリケーションに必要な作業負荷に応じて、マルチタイルシステムオンチップとして設計される。

相互接続部３４は、アレイ６の異なるタイル４が互いに通信できるように構成される。しかし、同じタイル４上のスレッド間の依存性が潜在的に存在するのと同様に、アレイ６の異なるタイル４上で走らせているプログラムの部分間の依存性も存在し得る。従って、あるタイル４上のコード片が、別のタイル４上の別のコード片による利用が可能になっている依存データを先に走らせるのを防ぐための技法が必要とされる。

各タイル４は、それ自体が、ローカル命令メモリからの命令（コード）の実行や、ローカルデータメモリ内のデータの取扱いが可能なプロセッサである。タイル４は、バレルスレッドプロセッサ及びメモリのそれぞれの例を含み得る。例えば、例示として、プロセッサ２は、何百もの又は千を超えるタイル４を含み得る。完全を期すため、本明細書で言及される「アレイ」は、必ずしも特定の次元数又は物理的なレイアウトのタイル４を含意するとは限らないことも留意されたい。

プロセッサ２上のタイル４間の通信は、時間決定論的に起こる。しかし、タイル間交換の他の形態も可能である。アレイ６の異なるタイル４上で走らせているプログラムの部分間の依存性が存在し得る。すなわち、あるタイル上のデータ処理は、別のタイルからの結果に依存し得る（例えば、別のタイルが依存する結果を提供し得る）。従って、あるタイル４上のコード片が、別のタイル４上の別のコード片による利用が可能になっている依存データを先に走らせるのを防ぐための技法が必要とされる。

ＡＩ及びデータ科学の並列プログラミングモデルは、通常、演算、バリア及び交換の３段階の反復実行モデルに従う。その意味は、プロセッサへの及びプロセッサからのデータ転送が、通常、プロセッサ間及び各プロセッサとホストとの間のデータ一貫性を提供するためにバリア依存性を有することである。典型的には、使用されるデータ一貫性モデルは、バルク同期並列（ＢＳＰ）、ステイル同期並列（ＳＳＰ）及び非同期である。本明細書で説明される実施形態はＢＳＰモデルを使用するが、代替の形態として他の同期モデルを利用できることが明らかであろう。

図５及び６を参照すると、図５及び６は、ＢＳＰ交換スキームの実装形態を示しており、各タイル４は、交互サイクルで演算段階３３と交換段階３２を実行し、演算段階３３と交換段階３２は、タイル間でバリア同期３０によって相互に分離される。図５及び６によって示される事例では、バリア同期は、各演算段階３３とそれに続く交換段階３２との間に配置される。演算段階３３の間、各タイル４は、タイル上で局所的に１つ又は複数の演算タスクを実行するが、他のいかなるタイル４ともこれらの演算の結果の通信を行うことはない。交換段階３２では、各タイル４は、先行する演算段階からの演算の１つ又は複数の結果を１つ又は複数の他のタイルと交換できるが、そのタスクが依存性を有するデータを他のタイル４から受信するまで、新しい演算の実行を行うことはない。また、先行する演算段階において演算されたもの以外のデータを他のタイルに送信することもない。交換段階３２において、内部制御関連動作などの他の動作を実行できることは除外されない。タイルグループの外部の通信は、ＢＳＰメカニズムを任意に利用できるが、代替として、ＢＳＰを利用せずに、それ自体の他の何らかの同期メカニズムを代わりに使用することができる。

ＢＳＰ原理によれば、バリア同期３０は、演算段階３３から交換段階３２に移行する接合点、交換段階３２から演算段階３３に移行する接合点又はその両方に配置される。すなわち、（ａ）グループのいずれかのタイルが次の交換段階３２に進めるようになる前に、すべてのタイル４がそれらのそれぞれの演算段階３３を完了する必要があるか、（ｂ）グループのいずれかのタイルが次の演算段階３３に進めるようになる前に、グループのすべてのタイル４がそれらのそれぞれの交換段階３２を完了する必要があるか、又は、（ｃ）これらの条件の両方が実施されるかのいずれかである。３つのすべての変形形態では、段階を交互に行うのは個々のタイルであり、同期するのはアセンブリ全体である。次いで、交換段階と演算段階のシーケンスは、複数の反復にわたって繰り返すことができる。ＢＳＰの専門用語では、交換段階及び演算段階の各反復は、「スーパーステップ」と呼ばれる場合がある（ただし、文献上では、専門用語が常に一貫して使用されるとは限らないことに留意されたい。すなわち、個々の交換段階及び演算段階の各々が個別にスーパーステップと呼ばれる場合があるのに対して、本明細書で採用される専門用語のように、交換段階及び演算段階が合わせてスーパーステップと呼ばれる場合もある）。

また、同じプロセッサ２又は異なるプロセッサ上のタイル４の複数の異なる独立したグループの各々は、互いに非同期的に動作する別個のそれぞれのＢＳＰグループを形成することができ、演算、同期及び交換のＢＳＰサイクルは所定の各グループ内でのみ課されるが、各グループは他のグループとは無関係にそれを行うことは除外されないことにも留意されたい。すなわち、マルチタイルアレイ６は、複数の内部同期するグループを含み得、各々は、他のそのようなグループとは無関係に及び非同期的に動作する（後にさらに詳細に論じられる）。いくつかの実施形態では、後にさらに詳細に論じられるように、同期及び交換の階層的分類がある。

図６は、（ａ）演算段階３３から交換段階３２へのバリア同期（上記を参照）が課される事例における、アレイ６のタイルのいくつか又はすべてのグループ４ｉ、４ｉｉ、４ｉｉｉの間で実装されるようなＢＳＰ原理を示す。この配列では、いくつかの他のタイルが依然として交換を行っている間に、いくつかのタイル４が演算３３を開始できることに留意されたい。

プロセッサ２のタイル４間の通信は時間決定論的に起こり、データパケットはヘッダなしで送信される。これについては、我々の先の出願である米国特許出願第１５／８８６３１５号明細書で説明されている。

実施形態では、プロセッサ２の複数の例は、複数のプロセッサ２に広がるタイル４のさらに大きなアレイを形成するためにまとめて接続される。これは、図７に示されている。プロセッサ２は、（図７に示される外部のリンク８を介して）外部の相互接続部７２によってまとめて接続される。この外部の相互接続部７２は、同じＩＣパッケージ上、同じカード上の異なるＩＣパッケージ上及び／又は異なるカード上の異なるＩＣパッケージ上のプロセッサ２間で接続することができる。異なるプロセッサ上のタイル４間のデータ交換用の導管を提供するのと同様に、外部の相互接続部７２は、異なるプロセッサ２上のタイル４間のバリア同期を実行して異なるプロセッサ２上のタイル４の局所的な終了状態を集約するためのハードウェアサポートも提供する。

図８は、プロセッサ２間の通信（外部の交換）のための例示的なメカニズムを示す。このメカニズムは、非時間決定論である。メカニズムは、外部の相互接続部７２における専用ハードウェアロジックで実装される。データは、パケットの形態で、外部の相互接続部７２上で送信される。内部の相互接続部３４上で送信されるパケットとは異なり、これらのパケットは、ヘッダを有する。すなわち、送信の順番は変更される場合があるため、パケットヘッダに送信先アドレスが存在する必要がある。外部の相互接続部７２は、データパケットのヘッダに応じて異なるプロセッサ間でデータパケットを静的にルーティングするためのルーティングテーブルを含む。

物理層では、相互接続メカニズムは損失を有する（ｌｏｓｓｙ）が、トランザクション層では、リンク層のアーキテクチャにより、メカニズムは損失を有さない。すなわち、パケットの受信が確認されていない場合は、相互接続部７２のハードウェアによって自動的に再送信される。しかし、損失及びデータリンク層での再送信の可能性は、外部の相互接続部７２上でのデータパケットの伝達が時間決定論的ではないことを意味する。さらに、所定の交換のすべてのパケットは、一緒に到着する場合も、時間差がある場合もあり、また、いかなる順番でもあり得るため、外部の相互接続部は、フロー制御及びキューイングを必要とする。さらに、相互接続部は、ビットロックを維持するために十分なデータ信号遷移を有する受信データストリームからクロックを推論するために、クロックデータリカバリ（ＣＤＲ）技術を使用することができる。この推論されるクロックは、送信側のクロックに知られていない位相関係のものであり、従って、非決定論的と見なされる追加の理由が示される。

示されるように、外部の相互接続部７２は、外部の交換ブロック（ＸＢ）７８を含む。コンパイラは、外部の交換要求（ＸＲＥＱ）を交換ブロック７８に送信する（動作Ｓ１）ために、タイル４のうちの１つを指名する。ＸＲＥＱは、１つ又は複数の制御パケットを含むメッセージであり、別のプロセッサ２上の別の１つ又は複数のタイル４に送信するためのデータパケット（コンテンツ）をどのタイル４が有するかを示す。これは、図８においてチェックマーク及びバツ印によって概略的に示されている。例示的なシナリオとして、チェックマークが付けられたものは、外部に送信するデータパケットを有するものであり、バツ印が付けられたものは、外部に送信するデータパケットを有さないものである。動作Ｓ２では、交換ブロック７８は、外部に送信するデータと共に、交換オン（ＸＯＮ）制御パケットをタイル４の第１のタイルに送信する。これにより、第１のタイルは、外部の相互接続部７８を介して関連送信先へのそのパケットの送信を開始する（動作Ｓ３）。外部の相互接続部で第１のタイルから受信されたデータパケットは、外部の相互接続部７８内のルーティングテーブルを使用して送信先に静的にルーティングされる。ＸＢ７８が相互接続部にパケットを送信し続けることができない場合はいつでも（例えば、以前のパケット損失及び相互接続部における再送信が原因で、又は、他の多くのＸＢ及びタイルによる外部の相互接続部の過度のサブスクリプションが原因で）、ＸＢ７８がオーバフローをキューイングする前に、ＸＢは、交換オフ（ＸＯＦＦ）をそのタイルに送信する。混雑が解消され、ＸＢ７８が再びそのキューの十分なスペースを得た時点で、ＸＢ７８は、ＸＯＮをタイルに送信し、そのコンテンツの送信の継続が可能になる。このタイルがその最後のデータパケットを送信した時点で、動作Ｓ４において、交換ブロック７８は、交換オフ（ＸＯＦＦ）制御パケットをこのタイルに送信し、次いで、動作Ｓ５において、送信予定のデータパケットと共に、別のＸＯＮを次のタイル４に送信するなど、以下同様である。ＸＯＮ及びＸＯＦＦの信号伝達は、外部の交換ブロック７８の形態の専用ハードウェアロジックのハードウェアメカニズムとして実装される。

図９を参照すると、図９は、プロセッサ２の一部であるタイル４の例を示している。タイル４は、少なくとも１つの実行ユニット９０５を含み、少なくとも１つの実行ユニット９０５は、命令メモリ９１０に格納された命令によって定義されるような、算術及び論理演算、アドレス計算、ロード及び格納動作並びに他の動作を実行することができる。実行ユニット９０５は、データメモリ９１５に保持されたデータに関する動作を実行するために命令を実行するように構成される。各タイル４の命令メモリ９１０に保持された命令は、図４及び４Ａのプロセッサ２全体に対して示される命令メモリ４１０に保持された命令のセットのサブセットと見なすことができる。命令メモリ４１０は、各タイル４の命令メモリ９１０を含む分散メモリであると見なすことができる。

命令メモリ９１０に保持された命令は、各プロセッサ２の対応するタイル４において同じであり得る。図１０を参照すると、図１０は、各プロセッサ２の異なるタイル４が互いにどのように対応するかを示している。第１のプロセッサ２ｉは、タイル４ｉａを含む。第２のプロセッサ２ｉｉは、タイル４ｉｉａを含む。第３のプロセッサ２ｉｉｉは、タイル４ｉｉｉａを含む。タイル、４ｉａ、４ｉｉａ、４ｉｉｉａの各々には、同じ命令がロードされる。各タイル４ｉａ、４ｉｉａ、４ｉｉｉａの実行ユニット９０５によって実行される動作は、それらが属するプロセッサ２のインデックスに応じて異なる。同様に、第１のプロセッサ２ｉは、タイル４ｉｂを含む。第２のプロセッサ２ｉｉは、タイル４ｉｉｂを含む。第３のプロセッサ２ｉｉｉは、タイル４ｉｉｉｂを含む。タイル、４ｉｂ、４ｉｉｂ、４ｉｉｉｂの各々には、同じ命令がロードされる。各タイル４ｉｂ、４ｉｉｂ、４ｉｉｉｂの実行ユニット９０５によって実行される動作は、それらが属するそれぞれのプロセッサ２のインデックスに応じて異なる。従って、プロセッサ２の対応する各タイル４には命令の同一のセットがロードされるため、コンピュータ７００の各プロセッサ２は、命令の全体的に同じセットを含むことが理解されよう。

図９に戻ると、演算段階の間、データの値を変更するために、データメモリ９１５に保持されたデータに関してある動作が実行される。命令メモリ９１０に保持された命令は異なるプロセッサ２にわたって対応するタイル４において同じであるため、演算段階の間にデータメモリ９１５に保持されたデータを操作するために実行される動作は、プロセッサ２の対応するタイルにわたって同じであり得る。しかし、いくつかの実施形態では、命令メモリ９１０に保持された命令は、データ依存性を有し得、その結果、演算段階の間、データメモリ９１５に保持された異なるデータセットに応じて、異なる動作が実行される。

タイル４は、インデックス値ストア９２０に保持されたインデックス値を含む。データメモリ９１５に保持されたデータを操作するために演算段階の間に実行ユニット９０５によって実行される動作は、インデックス値ストア９２０に保持されたインデックス値とは無関係である。しかし、他のプロセッサ２との交換段階の間に実行ユニット９０５によって実行される動作は、インデックス値に依存する。インデックスストレージ９２０は命令メモリ９１０とは別個のものとして示されているが、いくつかの実施形態では、インデックスストレージ９２０及び命令メモリ９１０は、単一のメモリアレイの一部を形成し得る。

示されるように、データメモリ９１５に保持されたデータは、異なる部分／フラグメントに分割される（スライスとして示されている）。他のタイルとのデータ交換が行われる前、少なくとも１つの実行ユニット９０５は、１つ又は複数の部分から送信バッファ９２５にデータを転送するという命令を実行するように構成される。実行ユニット９０５は、インデックスストレージ９２０に保持されたインデックス値に応じて、転送するデータを選択する。次いで、実行ユニット９０５は、選択されたデータを送信バッファ９２５に渡す。交換段階の間、実行ユニット９０５は、インタフェース８を介してデータを送信する命令を実行する。インタフェース８を介してデータを送信することは、別のプロセッサ２のデータ送信先アドレスを有するヘッダをデータパケットに加えることを含む。データパケットは、図８に関して上記で論じられるスキームに従って、そのプロセッサ２に送信される。

交換段階の間、タイル４は、１つ又は複数のデータパケットを受信するように構成される。これらのデータパケットは、他のプロセッサ２上のタイルから受信される。１つ又は複数のデータパケットが受信され次第、データパケットは、受信バッファ９３０に格納される。少なくとも実行ユニット９０５は、ストレージ９２０に保持されたインデックス値に応じて受信データを取り扱う命令を実行する。少なくとも１つの実行ユニット９０５は、ストレージ９２０に保持されたインデックス値に応じて、データパケットから導出されたデータを、データメモリ９１５内の場所で格納するように構成される。また、少なくとも１つの実行ユニット９０５は、動作の結果をメモリ９１５に格納する前に、受信データパケットからのデータ及びメモリ９１５に格納されたデータを用いて、集約動作などの動作を実行することもできる。

従って、ストレージ９２０に保持されたインデックス値は、少なくとも１つの実行ユニット９０５によって、送信するためにメモリ９１５から特定のアドレスのデータを選択すること、受信データに関する動作（例えば、集約動作）を実行するためにデータを選択すること、及び、インデックス値に応じてメモリ９１５内の特定のアドレスで受信データから導出された結果を格納することの少なくとも１つを行うために使用される。

実行ユニット９０５によってインデックス値を使用してデータを格納するためのメモリ９１５内のアドレスを選択する方法は様々である。

いくつかの実施形態では、異なるデータ部分は、メモリ９１５内で隣接して配列される。実行ユニット９０５は、インデックス値に応じてデータを読み取るか又は書き込む予定のメモリ９１５内のアドレスを計算するように構成される。実行ユニット９０５は、命令メモリ９１０の命令において定義される動作を実行することによってアドレスを計算する。動作は、算術演算である。

いくつかの実施形態では、命令メモリ９１０は、複数のコード部分を格納し、各部分は、データ転送を異なる方法で制御するように構成される。例えば、あるコード部分は、メモリ９１５内の特定のメモリ場所にあるデータを別のプロセッサ２に送信させることができるのに対して、別のコード部分は、メモリ９１５内の異なるメモリ場所にあるデータを別のプロセッサ２に送信させることを実行ユニット９０５に行わせることができる。別のコード部分は、受信データをメモリ９１５内の特定の場所で格納させることも、受信データに対して特定の動作を行わせることもできる。実行ユニット９０５は、命令メモリ９１５からのコードを実行し、実行シーケンスにおいてメモリ９１５からデータが読み取られるか又はメモリ９１５にデータが書き込まれる時点で、実行ユニット９０５は、データの読み取り又は書き込み動作を実行するためのコード部分を選択するために分岐動作を実行する。コード部分は、インデックス値に応じて選択される。

本明細書で開示される技法の例示的な適用によれば、各プロセッサ２には、機械学習モデルを訓練するために、デルタ重みを生成するための異なる訓練データセットが提供される。この事例では、各タイル４には、１つ又は複数のデルタ重みを生成するための異なる訓練データセットが提供される。一体となって、各プロセッサ２のすべてのタイル４は一体となって、完全なデルタ重みセットを生成し、完全なデルタ重みセットは、他のプロセッサ２上で生成されたデルタ重みと併せて平均化される。

いくつかの実施形態では、実行ユニット９０５は、処理する異なるワーカースレッド間で切り替えるように構成される。実行ユニット９０５は、この事例では、米国特許出願第１５／８８６３１５号明細書で説明されるようなバレルスレッドプロセッサの一部である。この事例では、各ワーカースレッドは、機械知能グラフの個々のプロセッサのそれぞれと関連付けられた演算を実行するようにプログラムされる。この事例では、プロセッサ間のエッジの少なくともいくつかは、スレッド間のデータの交換に対応する。その間でデータが交換されるスレッドは、同じ実行ユニット９０５上で実行されているスレッドでも、異なるタイル４の実行ユニット上で実行されているスレッドでもあり得る。そのいくつかは、プロセッサ２の異なるタイル間の交換に関与し得る。メモリ９１５内に示されるスライスの各々は、プロセッサ間の特定のエッジと関連付けられたデルタ値に対応し得、デルタ値は、訓練の間に実行ユニット９０５によって計算される。また、メモリ９１５は、さらなるデータを含むものとしても示されている。このさらなるデータは、デルタ値を生成するためのデータ（訓練データなど）、現行の重み値及び機械学習モデルを定義する任意のさらなるデータ（活性化関数、各層のプロセッサの数など）を含み得る。

図１１を参照すると、図１１は、図１２に示されるコンピュータ７００などのコンピュータの各プロセッサに対してプログラムをコンパイルするためのコンパイルプロセスを示している。上記で論じられる命令のセット及びインデックス値は一体となって、各プロセッサ２上での実行のためのプログラムを構成する。各プロセッサ２に対するコンパイル済みの命令のセットは同じであり、各プロセッサ２に対する異なるインデックス値が命令のセットに追加されている。

方法１１００は、コンパイラによって実行され、少なくとも１つの実行ユニットと、少なくとも１つの実行ユニットによる実行のためのコンピュータコードを保持する少なくとも１つのメモリとを含む任意の適切なコンピューティング装置上で実行することができる。

ステップＳ１１１０では、コンパイラは、各プロセッサ２に提供するための実行可能命令の単一のセットをコンパイルする。実行可能命令の単一のセットは、実行可能イメージの形態である。実行可能命令のセットは、複数の命令のサブセットを含み得、各サブセットは、プロセッサ２の異なるタイル４による実行のためのものである。

ステップＳ１１２０では、コンパイラは、コンピュータ７００の各プロセッサ２に対して、プロセッサ２と関連付けられたインデックス値を決定する。決定される各インデックス値は、コンピュータ７００内の異なるプロセッサ２を一意的に識別する。

ステップＳ１１３０では、コンパイラは、各プロセッサ２に対して、命令の単一のセット及びプロセッサ２と関連付けられたインデックス値を含むローカルプログラムを生成する。コンパイラは、各プロセッサ２に対して、Ｓ１１１０で生成されたコンパイル済みの命令のセットを取り入れ、この命令のセットをＳ１１２０で決定されたプロセッサに対するインデックス値とパッチすることによって、それを行う。

上記の実施形態は、単なる例として説明されていることが理解されよう。特定の実施形態について説明してきたが、本明細書が開示された時点で、当業者には、開示される技法の他の応用及び変形形態が明らかになるであろう。

Claims

複数のプロセッサを含むコンピュータであって、各プロセッサが、前記コンピュータの演算段階の間にデータに関する動作を実行し、同期バリアに続いて、前記コンピュータの交換段階の間に少なくとも１つの他のプロセッサとデータを交換するように構成され、各プロセッサは、
複数の処理ユニットと、
実行可能命令の同じセットと複数のプロセッサの中の各プロセッサを識別するインデックス値とを含むプログラムを含む少なくとも１つのストレージであって、前記プロセッサの前記インデックス値のコピーと前記実行可能命令のセットのサブセットとを格納する前記プロセッサの前記処理ユニットの少なくとも１つのメモリを含む少なくとも１つのストレージと、
前記実行可能命令のセットによって指定された計算において使用するためのデータを格納し、プロセッサの複数の処理ユニットの各々のデータメモリを含む、複数のデータメモリと、
プロセッサの複数の処理ユニットの各々の実行ユニットを含む複数の実行ユニットと、
を含み、
前記複数の実行ユニットの少なくともいくつかそれぞれが、
前記インデックス値に応じて、前記コンピュータの前記交換段階の間に、処理ユニットの前記データメモリと少なくとも１つの他のプロセッサとの間のデータ転送を実行するための動作を選択することと、
前記交換段階の間にデータ転送を実行するために選択された動作を実行することと、
を行うための実行可能命令の１つ以上のサブセットを実行するよう配置されている、
コンピュータ。
少なくともいくつかのプロセッサの最小のいくつかの処理ユニットについて、前記インデックス値に応じてデータ転送を実行するための動作を選択することは、データが転送される少なくとも１つの他のプロセッサを選択することを含む、請求項１に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記動作は、前記インデックス値に応じて選択された前記データメモリの領域と少なくとも１つの他のプロセッサとの間でデータを転送させる、請求項１又は２に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記実行ユニットは、前記インデックス値に基づく算術演算を実行することによって、データメモリの領域のアドレスを計算するように構成される、請求項３に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記実行ユニットは、前記インデックス値に応じて前記実行可能命令のサブセットの少なくとも１つの命令に分岐するように構成され、前記少なくとも１つの命令は、前記実行ユニットによって実行されると、データメモリの領域と少なくとも１つの他のプロセッサとの間でデータを転送させる、請求項３に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記動作は、データメモリの領域に少なくとも１つの他のプロセッサから受信されたデータを格納することを含む、請求項３～５のいずれか一項に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記動作は、前記インデックス値に応じて、前記データメモリに格納されたデータを選択することと、選択されたデータを少なくとも１つの他のプロセッサに送信することとを含む、請求項１～６のいずれか一項に記載のコンピュータ。
最小のいくつかのプロセッサの少なくともいくつかの処理ユニットの前記実行ユニットは、データパケットを生成するために選択されたデータを処理するように構成され、
前記データパケットは、選択されたデータと、少なくとも１つの他のプロセッサのバッファのアドレスを含むヘッダと、を含む、請求項７に記載のコンピュータ。
前記データ転送において転送されるデータを静的にルーティングするように構成されたルーティングハードウェアを含む、請求項１～８のいずれか一項に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、
前記動作は、少なくとも１つの他のプロセッサのそれぞれから受信されたデータと、前記データメモリに格納されたデータを組み合わせることを含み、
前記実行ユニットは、前記インデックス値に応じて、前記データメモリから前記データを選択するように構成される、請求項１～９のいずれか一項に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、
前記データメモリは、少なくとも１つの機械学習モデルに対する複数のデルタ重みを含み、
前記データメモリと少なくとも１つの他のプロセッサのそれぞれとの間のデータ転送が、前記データメモリと少なくとも１つの他のプロセッサのそれぞれとの間の１つ又は複数のデルタ重みの転送を制御することを含む、請求項１～１０のいずれか一項に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記実行ユニットは、前記インデックス値に応じて、前記データメモリから１つ又は複数のデルタ重みを選択し、少なくとも１つの他のプロセッサのそれぞれに選択された１つ又は複数のデルタ重みを転送させるように構成される、請求項１１に記載のコンピュータ。
少なくともいくつかのプロセッサの少なくともいくつかの処理ユニットについて、前記実行ユニットは、
前記インデックス値に応じて、前記データメモリから１つ又は複数のデルタ重みを選択することと、
選択された１つ又は複数のデルタ重みを、少なくとも１つの他のプロセッサから受信された１つ又は複数のデルタ重みと集約させることと、
を行うように構成される、請求項１１又は１２に記載のコンピュータ。
前記プロセッサは、システムオンチップである、請求項１に記載のコンピュータ。
複数のプログラムを生成するためのコンピュータ実装方法であって、各プログラムが、複数のプロセッサを含むコンピュータのプロセッサによる実行に適し、各プロセッサが、複数の処理ユニットを有し、各処理ユニットが、前記プロセッサのプログラムのサブセットを保持するための少なくとも１つのメモリと、前記プログラムの前記サブセットを実行するための実行ユニットと、データを保持するためのデータメモリとを有し、コンピュータ実装方法は、
単一の実行可能命令のセットをコンパイルすることと、
各プロセッサに対して、プロセッサと関連付けられたインデックス値を決定することと、
各プロセッサに対して、単一の命令のセット及び前記インデックス値を含むローカルプログラムを生成することと、
を含み、
前記ローカルプログラムの各サブセットは、前記ローカルプログラムがプロセッサに割り当てられると、
前記コンピュータの演算段階の間にデータに関する動作を実行することと、
前記インデックス値に応じて、前記コンピュータの交換段階の間に、処理ユニットの前記データメモリと少なくとも１つの他のプロセッサとの間のデータ転送を実行するための動作を選択することと、
同期バリアに続いて、前記交換段階の間にデータ転送を実行するために選択された動作を実行することと、
を前記プロセッサの前記実行ユニットの１つで実行させるようスケジューリングされる、
コンピュータ実装方法。