JP2019079528A - マルチタイル処理配列における同期化 - Google Patents

マルチタイル処理配列における同期化 Download PDF

Info

Publication number
JP2019079528A
JP2019079528A JP2018197233A JP2018197233A JP2019079528A JP 2019079528 A JP2019079528 A JP 2019079528A JP 2018197233 A JP2018197233 A JP 2018197233A JP 2018197233 A JP2018197233 A JP 2018197233A JP 2019079528 A JP2019079528 A JP 2019079528A
Authority
JP
Japan
Prior art keywords
instruction
tile
tiles
synchronization
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018197233A
Other languages
English (en)
Other versions
JP6797881B2 (ja
JP2019079528A5 (ja
Inventor
クリスチャン ノウルズ サイモン
Christian Knowles Simon
クリスチャン ノウルズ サイモン
グラハム アレクサンダー アラン
Graham Alexander Alan
グラハム アレクサンダー アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Graphcore Ltd
Original Assignee
Graphcore Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Graphcore Ltd filed Critical Graphcore Ltd
Publication of JP2019079528A publication Critical patent/JP2019079528A/ja
Publication of JP2019079528A5 publication Critical patent/JP2019079528A5/ja
Application granted granted Critical
Publication of JP6797881B2 publication Critical patent/JP6797881B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/522Barrier synchronisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17325Synchronisation; Hardware support therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/3009Thread control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/461Saving or restoring of program or task context
    • G06F9/462Saving or restoring of program or task context with multiple register sets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4887Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues involving deadlines, e.g. rate based, periodic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • G06N3/105Shells for specifying net layout
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)
  • Multi Processors (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】複数のタイルと、タイル間の相互接続とを含む処理システムを提供する。【解決手段】処理システムにおいて、相互接続は、バルク同期並列方式に従ってタイルの一部又はすべての群間で通信するために使用され、群内の各タイルは、オンタイルの計算段階とそれに続くタイル間交換段階を実行するとともに、群内のすべてのタイルが計算段階を完了するまで交換段階は制止される。群内の各タイルは、計算段階が完了するとローカル終了状態になる。命令セットは、相互接続内のロジックへの同期要求を通知するために、その計算段階の完了時に各タイルによって実行される同期命令を含む。群内のすべてのタイルからの同期要求を受信したことに応答して、ロジックは次の交換段階を解除し、群内のすべてのタイルの集合状態を利用可能にする。【選択図】図11

Description

本開示は、マルチタイル処理配列(array)において複数の異なるタイルのワークロードを同期させることに関し、各タイルは、それ自身の処理ユニット及びメモリからなる。特に、本開示は、群内でタイルのいずれかが交換段階に進むことができる前に、タイル群の各々が計算段階を完了しなければならないバルク同期並列(BSP)方式に関する。
マルチスレッドプロセッサは、互いに並行して複数のプログラムスレッドを実行することができるプロセッサである。プロセッサは、複数の異なるスレッドに共通のいくつかのハードウェア(例えば、共通命令メモリ、データメモリ及び/又は実行ユニット)を備え得るが、マルチスレッドをサポートするために、プロセッサは各スレッドに固有の専用ハードウェアも備えている。
専用ハードウェアは、一度に実行可能なスレッド数の各々に対して少なくとも1つの個別のコンテキストレジスタファイルを備える。「コンテキスト」は、マルチスレッドプロセッサについて言及するとき、互いに並行して実行されるスレッドの個別のプログラム状態(例えば、プログラムカウンタ値、ステータス及び現行のオペランド値)を指す。コンテキストレジスタファイルは、各スレッドにおけるこのプログラム状態を表すためのレジスタの個別の集合を指す。レジスタファイル内のレジスタは汎用メモリとは異なり、レジスタアドレスは命令語のビットとして固定されるが、メモリアドレスは命令を実行することによって計算することができる。所与のコンテキストレジスタは、典型的には、個別のスレッドのための個別のプログラムカウンタと、そのスレッドによって実行される計算中に個別のスレッドに作用して出力されるデータを一時的に保持するためのオペランドレジスタの個別のセットを備える。各コンテキストは、個別のスレッドの状態(例えば、一時停止中であるか実行中であるか)を記憶するために個別のステータスレジスタを有していてもよい。従って、現在実行中のスレッドの各々は、それ自身の個別のプログラムカウンタと、任意にオペランドレジスタ及びステータスレジスタとを有している。
マルチスレッドの1つの可能な形態は並列処理である。すなわち、複数のコンテキストと同様に、複数の実行パイプライン、すなわち並列に実行されるべき命令の各ストリームのために別の実行パイプラインが提供される。しかし、これにはハードウェアの点で多量の重複を必要とする。
その代わりに、マルチスレッドプロセッサの別の形態では、並列処理ではなく同時処理を用いて、スレッドが共通実行パイプライン(又は少なくともパイプラインの共通部分)を共有し、異なるスレッドはこの同じ共有実行パイプラインを介してインターリーブされる。マルチスレッドプロセッサのパフォーマンスは、パイプラインレイテンシを隠す機会が増えるため、同時処理がない場合、あるいは、並列処理に比べてさらに改善され得る。また、このアプローチでは、複数の実行パイプラインを備えた完全並列プロセッサとして各スレッド専用のハードウェアを余分に必要とせず、従って、沢山の余分なシリコンを必要としない。
並列処理の一形態は、同じチップ(すなわち、同じダイ)上に複数のタイルを配置し、各タイルはそれ自身の個別の処理ユニットとメモリ(プログラムメモリとデータメモリを含む)を備えるプロセッサによって達成することができる。従って、プログラムコードの別の部分は、タイルの異なる部分上で並列に実行することができる。タイルは、タイル間で通信するために異なるタイル上でコード実行を可能にするオンチップ相互接続を介して相互に接続される。場合によっては、各タイル上の処理ユニットは、それ自身がタイル上で複数の同時スレッドを実行し、同じパイプラインを介して同じタイル上で複数のスレッドのインターリーブをサポートするために、上述したように各タイルはそれ自身の個別のコンテキストのセット及び対応するパイプラインを有する。
一般に、異なるタイル上で動作するプログラムの部分間には依存関係が存在することがある。従って、そのコードが依存しているデータに先んじて実行されているあるタイル上のあるコードが、他のタイル上の別のコードによって利用可能にされるのを防ぐ技術が必要となる。これを達成するための多くの可能なスキームが存在するが、ここで対象とするスキームは「バルク同期並列(BSP)」として知られている。BSPによれば、各タイルは交互サイクルで計算段階と交換段階を実行する。計算段階では、各タイルは1つ以上の計算タスクをタイル上でローカルに実行するが、その計算結果をタイルの他のものと通信しない。交換段階では、各タイルは、前の計算段階からの計算の1つ以上の結果を群内の1つ以上の他のタイルに交換することが許可されるが、次の計算段階には進まない。さらに、BSPの原理によれば、バリア同期は、計算段階から交換段階へ、又は交換段階から計算段階へ、又はその両方へと遷移する時点に置かれる。すなわち、(a)群内のいずれかが次の交換段階に進むことが許可される前に、全てのタイルがそれぞれの計算段階を完了する必要があるか、(b)群内のいずれかのタイルが次の計算段階に進むことが許可される前に、群内の全てのタイルがそれぞれの交換段階を完了する必要があるか、(c)これらの両方である。いくつかのシナリオでは、計算を実行するタイルは、群内の他のタイルとの通信を伴わない限り、ネットワークカード又はストレージディスクなどの他のシステムリソースと通信することを許可されてもよい。
マルチスレッド及び/又はマルチタイル処理の使用例は、機械知能に見られる。機械知能の当業者によく知られているように、機械知能アルゴリズムは、複数の相互接続されたノードのグラフによって表すことができる「知識モデル」に対して反復的な更新を行うことに基づいている。各ノードは、その入力の関数を表す。いくつかのノードはグラフへの入力を受け取り、あるものは1つ以上の他のノードからの入力を受信する一方、いくつかのノードの出力は他のノードの入力を形成し、いくつかのノードの出力はグラフの出力を提供する(そして、場合によっては、与えられたノードは、これらの全て、すなわちグラフへの入力、グラフからの出力及び他のノードへの接続を有することさえある)。さらに、各ノードにおける機能は、1つ又は複数の個別のパラメータ、例えば、重みなど1つ又は複数のパラメータによってパラメータ化される。学習段階では、一連の経験的入力データに基づいて、グラフ全体が可能な入力の範囲に対して所望の出力を生成するように、様々なパラメータの値を見つけることが目的である。確率的勾配降下法に基づくエラー逆伝搬法など、これを行うための様々なアルゴリズムが当技術分野で知られている。入力データに基づく複数の反復にわたって、パラメータは徐々にそれらのエラーを減少させるように調整され、アウトカムとしてグラフは解に向かって収束する。次に後段では、学習されたモデルを使用して、入力の指定されたセットが与えられた出力の予測を行い、あるいは、出力の指定されたセットが与えられた入力(原因)についての推論を行うことができる。
各ノードの実装はデータの処理を含み、グラフの相互接続はノード間で交換されるデータに対応する。典型的には、各ノード処理の少なくともいくつかは、グラフ内でノードのいくつか又は全てと独立して実行することが可能であり、従って、大きなグラフは、同時処理及び/又は並列処理の卓越した機会を顕在化する。
以下では、機械知能アプリケーションに関連する計算において生じる問題に対処するために開発されたアーキテクチャを有するプロセッサのコンポーネントについて説明する。本明細書で説明するプロセッサは、ワーク(work)アクセラレータとして使用することができ、すなわち、ホストコンピュータ上で動作するアプリケーションからワークロード(workload)を受け取る。ワークロードは、一般に、処理されるべき非常に大きなデータセット(知識モデルを学習するために機械知能アルゴリズムによって使用される大規模な経験データセット、又は以前に学習された知識モデルを使用して予測又は推論を実行するデータのような)の形態を呈している。本明細書に提示されたアーキテクチャの目的は、これらの膨大なデータを非常に効率的に処理することである。プロセッサアーキテクチャは、機械知能に関わる作業負荷を処理するために開発されてきた。それにもかかわらず、開示されたアーキテクチャは、同様の特性を共有する他のワークロードにも適していることは明らかであろう。
複数のタイルにわたってプログラムの異なる部分を実行する場合、複数のタイルを共通の実行点に持っていく(bring)ためにバリア同期を実行する必要がある。また、すべてのタイルが計算フェーズを完了した後に、全体としてプログラムの状態を特定する、例えば、例外をホストに報告する必要があるかどうかを特定し、プログラムの次の部分に分岐するか、又は現行部分を反復し続けるかを特定するのが望ましい。例えば、タイル群の各々が機械知能グラフの個別のサブグラフの計算を実行している場合、サブグラフのノードが、グラフが解に向かって収束していることを示す一定の条件を満たすかどうかを特定することが望ましい場合がある。既存の技術を用いてそのような特定を行うには、汎用命令を使用してプログラムされた多数のステップが必要となる。
ここでは、プロセッサの命令セットを、機械学習などの大規模なマルチスレッド可能なアプリケーションに適合させることが望ましいであろうことが認識される。本開示によれば、これは、群内のすべてのタイルが現在のBSP計算段階を完了した後にのみ、タイル群の結果を検証するための専用マシンコード命令を提供することによって達成される。これにより、タイルを同期させると同時に、レイテンシが小さく、コード密度が低い複数のスレッドの全体的なアウトカムを特定する能力を提供できる。
本明細書で開示される1つの態様によれば、タイルの配列及びタイル間の通信のための相互接続を備える処理システムであって、ここで、
各タイルは、機械コード命令を実行するための実行ユニットを備え、それぞれがプロセッサの命令セットにおける命令タイプの定義済みセットのインスタンスであり、前記命令セット内の各命令タイプは、対応するオペコードと、0個以上のオペランドを取り入れるための0個以上のオペランドフィールドとによって定義され、
前記相互接続は、バルク同期並列方式に従って前記タイルの一部又はすべての群間の通信を行うように動作可能であり、前記群内の各タイルは、オンタイルの計算段階とそれに続くタイル間交換段階を実行するとともに、前記群内のすべてのタイルが計算段階を完了するまで交換段階は制止され、前記群内の各タイルは、計算段階の完了時にローカル終了状態を有しており、
前記命令セットは、その計算段階の完了時に前記群内の各タイルによる実行のための同期命令を含み、前記同期命令の実行は、前記実行ユニットに同期要求を前記相互接続内のハードウェアロジックに送信させ、
前記相互接続内のロジックは、前記ローカル終了状態をグローバル終了状態に集合させるように構成され、前記群内のすべてのタイルからの同期要求を受信することによって示されるように、前記群内のすべてのタイルによる計算段階の完了に応答して、前記群内のタイルの各々上のグローバル終了状態レジスタにグローバル終了状態を記憶し、それにより、前記群内のタイルの各々上で実行されているコードの一部によってグローバル終了状態をアクセス可能にする処理システムが提供される。
本明細書で開示される別の態様によれば、タイルの配列及びタイル間で通信するための相互接続を備える処理システムが提供される。ここで、
各タイルは、機械コード命令を実行するためのそれぞれの実行ユニットを備え、それぞれがプロセッサの命令セットにおける命令タイプの所定のセットのインスタンスであり、命令セット内の各命令タイプは、対応するオペコードと、0個以上のオペランドを受け取るための0個以上のオペランドフィールドとによって定義され、
前記相互接続は、前記タイルの一部又はすべての群間を調整するための専用ハードウェアロジックの形態をした同期ロジックを含み、
前記命令セットは同期命令を含み、各固別なタイル上の固別な実行ユニットは、前記同期命令のインスタンスが個別の実行ユニットを介して実行される場合には、同期命令のオペコードに応答して、個別のタイルから相互接続内の同期ロジックに同期要求のインスタンスを送信させ、前記同期ロジックから受信された同期肯定応答を保留している個別のタイル上の命令発行を一時中断するように構成され、
各タイルは、個別の計算段階の完了時にタイルのローカル終了状態を記憶するためのローカル終了状態レジスタを有し、
同期ロジックは、前記群内のタイルのローカル終了状態をグローバル終了状態に集合するように構成され、
同期論理はさらに、前記群のすべてのタイルから同期要求のインスタンスを受信することに応答して、同期肯定(acknowledgement)応答を群内の各タイルに返送し、それにより、命令発行を再開させることができ、そして、群内の各タイル上でグローバル終了状態レジスタにグローバル終了状態を記憶し、群内の各タイル上で実行されているコードの一部によってグローバル終了状態へアクセス可能にするように構成される。
実施形態では、各タイル上の実行ユニットは、同期命令の実行に応答して命令発行を一時停止するように構成してもよく、相互接続グループ内のロジックは、群内のすべてのタイルから同期要求を受信することに応答して、命令発行を再開するために群内のタイルの各々に同期肯定応答信号を返送するように構成してもよい。
実施形態では、ローカル終了状態及びグローバル終了状態の各々は、単一ビットであってもよい。
実施形態では、集合体は、ローカル終了状態のブールAND、又はローカル終了状態のブールORからなっていてもよい。
代替の実施形態では、集合された終了状態は、ローカル終了状態がすべて真であるか、すべて偽であるか、又は混合されているかを示す、3値を表す少なくとも2ビットからなっていてもよい。実施形態では、集合された終了状態は、個々のバイナリ終了状態が全て1であるか、全て0であるか又は混合されているかを示す、3値を表す少なくとも2ビットを含んでいてもよい。
実施形態では、前記タイル群の各々は、タイルのローカル終了状態を表すように配列されたローカル終了状態レジスタを備えていてもよい。
実施形態では、群内の各タイルは、
複数のコンテキストレジスタセットであって、各々が複数のスレッドのうちの個別の1つのプログラム状態を記憶するように配列された各コンテキストレジスタセットと、
インターリーブされたタイムスロットの反復シーケンスにおいて、複数のタイムスロットの各々で複数のワーカースレッドの個別の1つの実行をスケジュールするように配列されたスケジューラであって、前記ワーカースレッドの各々の前記プログラム状態が前記コンテキストレジスタセットの個別の1つに記憶されるスケジューラと、を備え、
前記バルク同期並列スキームに従って、群内のすべてのタイル上で全てのワーカースレッドが計算段階を完了するまで交換段階は制止され、
各タイル上のローカル終了状態は、タイル上のワーカースレッドの各々によって出力された個々の終了状態の集合体であってもよく、そして、
前記コードの一部は、タイル上で複数のスレッドの少なくとも1つを含んでもよい。
実施形態では、群内の各タイルは、ローカル終了状態への個々の終了状態の前記集合体を実行するように構成されたハードウェアロジックを含んでいてもよい。
実施形態では、命令セットは、ワーカースレッドの各々に含めるための終了命令を含んでいてもよく、実行ユニットは、個別のワーカースレッドの個々の終了状態を出力し、終了命令のオペコードに応答して個別のワーカースレッドを終了させるように構成してもよい。
実施形態では、個々の終了状態及びローカル終了状態の各々は単一ビットであってもよく、個々の終了状態の集合体は、個々の終了状態のブールAND又は個々の終了状態のブールORであってもよい。
実施形態では、ローカル終了状態は、3値を表す少なくとも2ビットからなり、個々の終了状態がすべて真であるか、すべて偽であるか、又は混合されているかを示してもよい。
実施形態では、交換段階は、ワーカースレッドとは別個のスーパーバイザスレッドによって実行されるように配列されてもよく、前記少なくとも1つのスレッドは、スーパーバイザスレッドから構成されていてもよい。
実施形態では、命令発行の一時停止は、同期肯定応答を保留しているスーパーバイザスレッドからの命令の発行を少なくとも一時停止することを含んでいてもよい。
実施形態では、各タイル上のコンテキストレジスタセットは、前記複数のワーカースレッドの個別の1つのプログラム状態を表すように配列された複数のワーカーコンテキストレジスタセットと、スーパーバイザスレッドのプログラム状態を表すように配列されたレジスタの追加セットからなる追加スーパーバイザコンテキストレジスタセットとを備える。
実施形態では、
スーパーバイザスレッドは、前記タイムスロットの各々において実行することにより開始するように配列してもよく、
命令セットは、放棄命令をさらに含み、実行ユニットは、放棄命令のオペコードに応答して、放棄命令が実行されたタイムスロットを個別のワーカースレッドに放棄するように構成され、そして、
終了命令は、終了命令が実行された個別のタイムスロットをスーパーバイザスレッドに戻して、スーパーバイザスレッドが個別のスロットで実行を再開するようにしてもよい。
実施形態では、コードの一部は、有効となったグローバル終了状態を使用して、グローバル終了状態に依存する分岐判定を実行するように構成されてもよい。
実施形態では、処理システムは、グラフの各ノードが1つ以上の個別の入力エッジと1つ以上の個別の出力エッジとを有するとともに、ノードのうちの少なくともいくつかの入力エッジは、ノードのうちの少なくともいくつかの出力エッジである機械知能アルゴリズムを実行するようにプログラムされてもよく、各ノードは、その出力エッジをその入力エッジに関連付ける個別の関数からなるとともに、各個別の関数は1つ以上の個別のパラメータによってパラメータ化され、個別のパラメータの各々は関連付けられたエラーを有していて、グラフの一部又はすべてのエラーが小さくなるにつれてグラフは解に向かって収束するようになっており、タイルの各々は、グラフ内のノードのサブセットを含む個別のサブグラフをモデル化し、ローカル終了状態の各々は、個別のサブグラフ内のノードの1つ以上のパラメータにおけるエラーが所定状態を満たすかどうかを示すために使用してもよい。
実施形態では、前記群は、同期命令のオペランドによって少なくとも部分的に選択されてもよい。
実施形態では、同期命令のオペランドは、同じチップ上にタイルのみを含むか、又は前記群内の異なるチップ上のタイルを含むかを選択してもよい。
実施形態では、同期命令のオペランドは、グルーピングの異なる階層レベルの中から前記群を選択してもよい。
実施形態では、命令セットは不参加(abstain)命令をさらに含み、不参加命令が実行されたタイルを前記群から脱退(opt-out)させてもよい。
本明細書で開示される別の態様によれば、タイルの配列と、タイル間で通信するための相互接続とからなる処理システムを動作させる方法が提供される。ここで、各タイルは、機械コード命令を実行するための実行ユニットを含み、それぞれがプロセッサの命令セットにおける命令タイプの所定セットのインスタンスであり、命令セット内の各命令タイプは、対応するオペコードと、0個以上のオペランドを取り込むための0個以上のオペランドフィールドとによって定義され、この方法は、
バルク同期並列方式に従って、相互接続を介してタイルの一部又はすべての群間で通信を行い、それにより、前記群内でタイルの各々はタイル間演算段階を実行し、前記群内の各タイルは、オンタイル計算段階を実行した後にタイル間交換段階を実行するとともに、前記群内のすべてのタイルが計算段階を完了するまで交換段階は制止され、群内の各タイルは、計算段階の完了時にローカル終了状態を有しており、
命令セットは、その計算段階の完了時に群内の各タイルによる実行のための同期命令を含み、同期命令の実行は、実行ユニットに相互接続内のハードウェアロジックへ同期要求を送信させ、そして、この方法は、
バルク同期並列方式に従って、相互接続を介してタイルの一部又はすべての群間で通信を行い、それにより、前記群内でタイルの各々はタイル間演算段階を実行し、前記群内の各タイルは、オンタイル計算段階を実行した後にタイル間交換段階を実行するとともに、前記群内のすべてのタイルが計算段階を完了するまで交換段階を保持し続け、群内の各タイルは、計算段階の完了時にローカル終了状態を有しており、
命令セットは、その計算段階の完了時に群内の各タイルによる実行のための同期命令を含み、同期命令の実行は、実行ユニットに相互接続内のハードウェアロジックへ同期要求を送信させ、そして、
この方法は、群内のすべてのタイルからの同期要求を受信することによって示されるように、群内のすべてのタイルによる計算段階の完了に応答して、ローカル終了状態をグローバル終了状態に集合させ、群内の各タイル上のグローバル終了状態レジスタにグローバル終了状態を記憶するために相互接続内のロジックをトリガし、それにより、群内の各タイル上で実行されているコードの一部によってグローバル終了状態をアクセス可能にすることを含む。
本明細書に開示される別の態様によれば、コンピュータ可読媒体上に具現化され、本明細書で開示される任意の実施形態におけるプロセッサ上で実行されるコードを含むコンピュータプログラム製品が提供され、このコードは、各部分に同期命令のインスタンスを含む群内の各タイル上で実行するための部分を含む。
本開示の理解を支援し、実施形態がどのように実施され得るかを示すために、実施例として添付の図面を参照する。
マルチスレッド処理ユニットの概略ブロック図である。 複数のスレッドコンテキストの概略ブロック図である。 インターリーブされた実行タイムスロットのスキームを概略的に示す。 スーパーバイザスレッド及び複数のワーカースレッドを概略的に示す。 マルチスレッドの終了状態を集合するロジックの概略図である。 同じタイル上におけるワーカースレッド間の同期を概略的に示す。 多数のタイルを含むプロセッサチップの概略ブロック図である。 バルク同期並列(BSP)計算モデルの概略図である。 BSPモデルの別の概略図である。 マルチスレッド処理ユニット間におけるBSPの概略図である。 相互接続システムの概略ブロック図である。 複数の相互接続されたプロセッサチップのシステムの概略図である。 多層BSPスキームの概略図である。 マルチプロセッサチップのシステムの別の概略図である。 機械知能アルゴリズムで使用されるグラフの概略図である。 チップ間の同期化のための例示的な配線を示す。
以下では、バリア同期を実行し、同時に複数のタイルにわたる複数のスレッドの終了状態を終了状態レジスタ内の単一の集合状態に集合する専用命令をその命令セット内に含むプロセッサアーキテクチャについて説明する。この集合終了状態レジスタはすべてのタイルに存在し、集合されたすべてのタイルについて同じ結果を包含する最初に、これを組み込むことができる例示的なプロセッサを、図1〜図4を参照しながら説明する。
図1は、本開示の実施形態によるプロセッサモジュール4の一実施例を示す。例えば、プロセッサモジュール4は、同じチップ上の同様なプロセッサタイル配列の1つのタイルであってもよく、又はそれ自身のチップ上に独立型プロセッサとして実装されてもよい。プロセッサモジュール4は、バレルスレッド処理ユニットの形態をしたマルチスレッド処理ユニット10と、ローカルメモリ11(すなわち、マルチタイル配列の場合は同じタイル上の、又はシン群ロセッサチップの場合は同じチップ上の)を備えている。バレルスレッド処理ユニットは、パイプラインの実行時間がインターリーブされたタイムスロットの反復シーケンスに分割され、これらの各々が所与のスレッドによって所有され得るマルチスレッド処理ユニットの一種である。これについては後ほど詳しく説明する。メモリ11は、命令メモリ12及びデータメモリ22(異なるアドレス可能なメモリユニットに、又は同一のアドレス可能なメモリユニットの異なる領域に実装することができる)を備えている。命令メモリ12は、処理ユニット10によって実行される機械コードを記憶する一方、データメモリ22は、実行されたコードによって操作されるべきデータと、実行されたコードによって出力されるデータ(例えば、そのような操作の結果として)の両方を記憶する。
メモリ12は、プログラムの様々な異なるスレッドを記憶し、各スレッドは、特定のタスクの実行を命令する個別のシーケンスを含む。本明細書で参照される命令は、機械コード命令、すなわち、プロセッサの命令セットにおける基本命令の1つのインスタンスであって、単一のオペコード及び0個以上のオペランドからなるものを意味していることに留意されたい。
本明細書で説明するプログラムは、複数のワーカースレッドと、1つ又は複数のスーパーバイザスレッドとして構成することができる監視サブプログラムとを含む。これらについては後ほど詳しく説明する。実施形態では、ワーカースレッドの一部又はすべての各々は、それぞれ「コードレット(codelet)」の形態をとる。コードレットは特定のタイプのスレッドであり、時には「アトミック」スレッドとも呼ばれている。これはスレッドの開始から(起動時から)実行する必要がある全ての入力情報を有し、すなわち、プログラムの他の部分又は起動後のメモリからの入力を全く取り込まない。さらに、プログラムの他の部分は、スレッドが終了する(完了する)までスレッドのいかなる出力(アウトカム)を使用しないことがある。エラーが発生しない限り、終了することが保証される。但し、いくつかの文献では、コードレットはステートレスであると定義されていて、2回実行すると最初の実行から情報を継承できなかったが、本明細書ではこのような追加の定義は採用していない。また、ワーカースレッドの全てがコードレット(アトミック)である必要はなく、実施形態によっては、ワーカーの一部又は全てが代わりに相互に通信することができることにも留意されたい。
処理ユニット10内で、命令メモリ12からの複数の異なるスレッドは、単一の実行パイプライン13を介してインターリーブされ得る(典型的には、命令メモリに記憶された全スレッドのサブセットのみが、プログラム全体の任意の時点でインターリーブされ得るのであるが)。マルチスレッド処理ユニット10は、同時に実行される異なるスレッドの状態(コンテキスト)をそれぞれ表すように配列された複数のコンテキストレジスタファイル26と、同時に実行されるスレッドに共通の共有実行パイプライン13、インターリーブされた態様で、好ましくはラウンドロビン方式で共有パイプラインを介して実行するための同時スレッドをスケジューリングするためのスケジューラ24とを備えている。処理ユニット10は、複数のスレッドに共通の共有命令メモリ12と、複数のスレッドに同様に共通な共有データメモリ22とに接続されている。
実行パイプライン13は、フェッチステージ14、デコードステージ16、及び命令セットアーキテクチャによって定義されるような算術及び論理演算、アドレス計算、ロード及びストア演算、及び他の演算を実行する実行ユニットからなる実行ステージ18を含む。コンテキストレジスタファイル26の各々は、個別のスレッドのプログラム状態を表すためのレジスタの個別のセットからなっている。
コンテキストレジスタファイル26の各々を構成するレジスタの一実施例が図2に概略的に示されている。コンテキストレジスタファイル26の各々は、それぞれのスレッドについて(スレッドが現在実行中の命令アドレスを追跡するため)少なくとも1つのプログラムカウンタ(PC)からなるそれぞれ1つ以上の制御レジスタ28を備え、実施形態では各スレッドの現在の状態(例えば、エラーに遭遇したために、現在実行中であるか一時停止中であるかなど)を記録する1つ又は複数のステータスレジスタ(SR)のセットも備えている。コンテキストレジスタファイル26の各々はまた、オペランドレジスタ(OP)32の個別のセットを備えており、それぞれのスレッドによって実行される命令のオペランド、すなわちオペレーション実行時に、各スレッドの命令のオペコードによって定義されたオペレーションで操作される値又はオペレーションによって生じる値を一時的に保持する。コンテキストレジスタファイル26の各々は、任意に、それぞれ1つ以上の他のタイプのレジスタ(図示せず)からなっていてもよいことが理解されよう。また、用語「レジスタファイル」は、時には共通アドレス空間内のレジスタの群を言うために使用されるが、必ずしも本開示で当てはまる必要はなく、各ハードウェアコンテキスト26(コンテキストの各々が各レジスタセット26を表している)は、より一般的には、1つ又は複数のこのようなレジスタファイルから構成されていてもよい。
詳細は後述するが、開示された構成は、並行して実行可能なM個のスレッド(図示の例ではM=3であるが、限定するものではない)のそれぞれについて1つのワーカーコンテキストレジスタファイルCX0・・・CX(M−1)と、1つの追加スーパーバイザコンテキストレジスタファイルCXSを有している。ワーカーコンテキストレジスタファイルは、ワーカースレッドのコンテキストを記憶するために別にしてあって、スーパーバイザコンテキストレジスタファイルは、スーパーバイザスレッドのコンテキストを記憶するために別にしてある。実施形態では、スーパーバイザコンテキストは、各ワーカーと異なる数のレジスタを有する点で特別であることに留意されたい。ワーカーコンテキストの各々は、好ましくは、互いに同じ数のステータスレジスタ及びオペランドレジスタを有している。実施形態では、スーパーバイザコンテキストは、ワーカーの各々より少ないオペランドレジスタを有していてもよい。オペランドレジスタの実施例では、ワーカーコンテキストは、スーパーバイザが浮動小数点レジスタ、累算レジスタ、及び/又は専用のウェイトレジスタ(ニューラルネットワークの重みを保持するための)を含まないものである。実施形態では、スーパーバイザは、異なる数のステータスレジスタを有していてもよい。さらに、実施形態では、プロセッサモジュール4の命令セットアーキテクチャは、ワーカースレッド及びスーパーバイザスレッドがいくつかの異なるタイプの命令を実行するが、いくつかの命令タイプを共有するように構成されてもよい。
フェッチステージ14は、スケジューラ24の制御の下で、命令メモリ12から実行すべき命令をフェッチするように接続されている。スケジューラ24は、フェッチステージ14を制御して、一組の同時実行スレッドのそれぞれからの命令を、時間スロットの反復シーケンスで順番に取り出し、パイプライン13のリソースを時間的にインターリーブして複数のタイムスロットに分割するが、これについては後ほど詳しく説明する。例えば、スケジューリング方式は、ラウンドロビン方式又は重み付けラウンドロビン方式とすることができる。このように動作するプロセッサの別の用語はバレルスレッドプロセッサである。
いくつかの実施形態では、スケジューラ24は、スレッドが一時停止しているかどうかを示す各スレッドの状態レジスタSRの1つにアクセスして、スケジューラ24が実際にフェッチステージ14を制御して、現在アクティブであるスレッドの命令のみをフェッチするようにする。実施形態では、好ましくは、各タイムスロット(及び対応するコンテキストレジスタファイル)が常に1つのスレッド又は他のスレッドによって所有される、すなわち、各スロットが常にスレッドによって占有され、各スロットは常にスケジューラ24のシーケンスに含まれる。しかし、任意で所与のスロットを占有するスレッドは、その時点で一時停止してもよいが、この場合、そのスロットにシーケンスが回ってくると、それぞれのスレッドの命令フェッチが渡される。代替的に、あまり好ましくない実施例では、いくつかのスロットは一時的に空いており、スケジュールされたシーケンスから除外することができる。実行ユニットがインターリーブするように動作可能なタイムスロットの数などに関しては、これは、実行ユニットが同時に実行できるスロットの最大数、すなわち実行ユニットのハードウェアがサポートする同時スロットの数を言う。
フェッチステージ14は、各コンテキストのプログラムカウンタ(PC)にアクセスする。それぞれのスレッドについて、フェッチステージ14は、プログラムカウンタによって示されるように、プログラムメモリ12内の次のアドレスからそのスレッドの次の命令をフェッチする。プログラムカウンタは、分岐命令によって分岐されない限り、各実行サイクルをインクリメントする。その後、フェッチステージ14はフェッチされた命令をデコードステージ16に渡してデコードされ、デコードステージ16はその命令で指定された任意のオペランドレジスタ32のデコードされたアドレスとともに、デコードされた命令の指示を実行ユニット18に渡す命令が実行されるようにする。実行ユニット18は、オペランドレジスタ32及び制御レジスタ28へのアクセスを有し、オペランドレジスタ32及び制御レジスタ28は、算術命令の場合(例えば、2つのオペランドレジスタ内の値を加算、乗算、減算又は除算し、そのアウトカムをそれぞれのスレッドの別のオペランドレジスタに出力することによって)のように、復号されたレジスタアドレスに基づいて命令を実行する際に使用することができる。あるいは、命令がメモリアクセス(ロード又はストア)を定義する場合、実行ユニット18のロード/ストアロジックは、その命令に従ってデータメモリからの値を個別のスレッドのオペランドレジスタにロードするか、各スレッドのオペランドレジスタからの値をデータメモリ22に記憶する。あるいは、命令が分岐又は状態変化を定義する場合、実行ユニットはプログラムカウンタPC又は状態レジスタSRの1つの値をそれに応じて変更する。1つのスレッドの命令が実行ユニット18によって実行されている間に、インターリーブされたシーケンスにおける次のタイムスロットのスレッドからの命令は、デコードステージ16によってデコードされることが可能であり、及び/又は1つの命令がデコードステージ16によってデコードされている間に、その次のタイムスロットのスレッドからの命令をフェッチステージ14によってフェッチすることができる(一般に、本開示の範囲は、タイムスロットごとに1つの命令に限定されないし、例えば、別のシナリオでは、2つ以上の命令のバッチを、タイムスロットごとに所与のスレッドから発することができることもあり得る)。従って、インターリーブは、既知のバレルスレッド処理技術に従って、パイプライン13のレイテンシを効果的に隠す。
スケジューラ24によって実行されるインターリーブ方式の実施例が図3に示されている。ここでは、同時スレッドは、ラウンドロビン方式に従ってインターリーブされ、スキームの各ラウンド内で、ラウンドはタイムスロットS0、S1、S2・・・のシーケンスに分割され、各々が個別のスレッドを実行する。典型的に、各スロットは1プロセッササイクルであり、異なるスロットは均等なサイズであるが、全ての可能な実施形態では必ずしもそうではなく、例えば、重み付けラウンドロビン方式も可能であり、これにより、いくつかのスレッドは、実行ラウンドごとに他のスレッドより多くのサイクルが得られる。一般に、バレルスレッドは、偶数ラウンドロビン又は重み付けラウンドロビンスケジュールのいずれかを使用することができ、後者の場合、重み付けを固定又は適応させてもよい。
実行ラウンドごとのシーケンスが何であれ、このパターンが繰り返され、各ラウンドは各タイムスロットのそれぞれのインスタンスを含む。従って、本明細書で言及されるタイムスロットは、シーケンスの所与の反復におけるタイムスロットの特定の例ではなく、シーケンスにおける反復割り当てされた場所を意味することに留意されたい。別の言い方をすれば、スケジューラ24は、パイプライン13の実行サイクルを複数の時間的にインターリーブされた(時分割多重化された)実行チャネルに振り分けるとともに、各々がタイムスロットの反復シーケンスにおける個別のタイムスロットの繰り返しを含む。図示された実施形態では、4つのタイムスロットが存在するが、これは例示のためのものであり、他の数も可能である。例えば、1つの好ましい実施形態では、実際には6つのタイムスロットが存在する。
ラウンドロビン方式で分割されるタイムスロットの数が何であっても、本開示によれば、処理ユニット10は、タイムスロットが存在する数よりも1つ多いコンテキストレジスタファイル26を備えていて、インターリーブされたタイムスロットの数よりも1つ多いコンテキストをサポートし、バレルスレッディングが可能である。
これは、図2の実施例として示されており、図3に示すように4つのタイムスロットS0・・・S3がある場合、ここではCX0、CX1、CX2、CX3及びCXSという5つのコンテキストレジスタファイルが存在する。すなわち、バレルスレッド方式の実行時間スロットS0・・・S3が4つしかなく、同時に4つのスレッドしか実行できないとしても、本明細書では、第5のプログラムカウンタ(PC)と、オペランドレジスタ32の第5のセットからなり、実施形態では1つ以上のステータスレジスタ(SR)の第5のセットも含む第5のコンテキストレジスタファイルCXSを追加することが開示されている。上述したように留意されたいが、実施形態では、スーパーバイザコンテキストは他のコンテキストCX0・・・3と異なる場合があり、スーパーバイザスレッドは、実行パイプライン13を動作させるための命令の異なるセットをサポートすることができる。
第1の4つのコンテキストCX0・・・CX3の各々は、プログラマが望むアプリケーション固有の計算タスクが何であっても実行するために、4つの実行タイムスロットS0・・・S3のうちの1つに現在割り当てられている複数の「ワーカースレッド」のそれぞれ1つの状態を表すために使用される(これは、命令メモリ12に記憶されたプログラムのワーカースレッド総数のサブセットでしかないことに今一度留意されたい)。しかし、第5のコンテキストCXSは、特別な機能のために別にしてあり、少なくともスーパーワーカースレッド(SV)の状態を表すものであって、その役割はワーカースレッドの実行を調整する役割を果たすが、少なくともワーカースレッドWは、プログラム全体のどの時点でタイムスロットS0、S1、S2・・・のどれで実行されるかが判定される。任意に、スーパーバイザスレッドは、他の「スーパーバイザ」又は調整責任を有していてもよい。例えば、スーパーバイザスレッドは、特定の実行順序を保証するためにバリア同期を実行する責任を負うことがある。例として、1つ又は複数の第2のスレッドが同じプロセッサモジュール4上で実行される1つ又は複数の第1のスレッドによって出力されるデータに依存する場合、スーパーバイザは、第1のスレッドが終了するまで第2のスレッドのいずれも開始しないようにバリア同期を実行してもよい。そして/又は、スーパーバイザは、別のタイル又はプロセッサチップなどの特定の外部データソースがそのデータを利用可能にするために必要な処理を完了するまで、プロセッサモジュール4上の1つ又は複数のスレッドが開始しないことを保証するためにバリア同期を実行することができる。スーパーバイザスレッドは、複数のワーカースレッドに関する他の機能を実行するためにも使用できる。例えば、スーパーバイザスレッドは、プロセッサモジュール4に対して外的にデータを通信する責任を負ってもよい(1つ以上のスレッドによって作用される外部データを受信し、及び/又は1つ以上のワーカースレッドによって出力されたデータを送信する)。一般に、スーパーバイザスレッドは、プログラマが望むあらゆる種類のスーパーバイザ機能又は調整機能を提供するために使用されてもよい。例えば、別の実施例として、スーパーバイザは、タイルローカルメモリ12と記憶ディスク又はネットワークカードのようなより広範なシステム(配列6の外部)の1つ又は複数のリソースとの間の転送をスーパーバイズすることができる。
当然のことながら、4つのタイムスロットは一実施例に過ぎず、一般に他の実施形態では、1ラウンドあたり最大M個のタイムスロット0・・・M−1が存在する場合、プロセッサモジュール4がM+1コンテキストCX・・・CX(M−1)&CXS、つまり任意の時点でインターリーブされ得る各ワーカースレッドためのものと、スーパーバイザのための追加コンテキストから構成されるように、他の数で存在してもよい。例えば、1つの例示的な実施形態では、6つのタイムスロットと7つのコンテキストが存在する。
図4を参照すると、スーパーバイザスレッドSVは、インターリーブされたタイムスロットのスキームにおいてそれ自身のタイムスロットを有さない。ワーカースレッドへのスロット割り当てとしてのワーカーも柔軟に定義されない。むしろ、各タイムスロットは、ワーカーコンテキストを記憶するための独自の専用コンテキストレジスタファイル(CX0・・・CXM−1)を有しており、スロットがワーカーに割り当てられたときにワーカーによって使用されるが、スロットがスーパーバイザに割り当てられると使用されない。所与のスロットがスーパーバイザに割り当てられると、そのスロットは代わりにスーパーバイザのコンテキストレジスタファイルCXSを使用する。スーパーバイザは常に独自のコンテキストにアクセスでき、ワーカーはスーパーバイザコンテキストレジスタファイルCXSを占有することはできないことに留意されたい。
スーパーバイザスレッドSVは、任意の時間スロットS0・・・S3(又は、より一般的にはS0・・・SM−1)及びこれらの時間スロット全てにおいて実行する能力を有する。スケジューラ24は、全体としてプログラムが起動すると、全てのタイムスロットにスーパーバイザスレッドを割り当てること、すなわちスーパーバイザSVがS0・・・S3の全てで実行を開始するように構成されている。しかし、スーパーバイザスレッドには、後続のあるポイント(1つ又は複数のスーパーバイザタスクを実行する直後又は直後のいずれか)で、実行中のスロットのそれぞれをワーカースレッドのそれぞれの1つに一時的に放棄するメカニズムが提供されるが、例えば、図4に示す実施例では、最初はワーカーW0・・・W3である。これは、スーパーバイザスレッドが本明細書の一実施例として「RUN」と呼ばれる放棄命令を実行することによって達成される。実施形態では、この命令は、2つのオペランド(命令メモリ12内のワーカースレッドのアドレスと、データメモリ22内のそのワーカースレッド用のいくつかのデータのアドレス)を取る。すなわち、RUN task_addr,data_addr。
ワーカースレッドは、互いに並行して実行することができるコードの部分であり、それぞれが実行されるべき1つ以上の個別の計算タスクを表す。データアドレスは、ワーカースレッドによって実行されるいくつかのデータを指定してもよい。あるいは、放棄命令はワーカースレッドのアドレスを指定する単一のオペランドのみを取り、データアドレスをワーカースレッドのコードに含めてもよく、あるいは、別の実施例では、単一オペランドが、ワーカースレッド及びデータのアドレスを指定するデータ構造を指し示してもよい。上述したように、実施形態では、ワーカーの少なくとも一部は、コードレットの形態、すなわち同時に実行可能なコードの原子単位をとることができる。代替的に又は追加的に、ワーカーのいくつかはコードレットである必要はなく、代わりに相互に通信することができてもよい。
放棄命令(「RUN」)は、スケジューラ24に対して作用し、この命令自身が実行される現行のタイムスロットを、オペランドによって指定されたワーカースレッドに放棄する。放棄命令では、放棄されるのがこの命令が実行されるタイムスロットであることが暗示されていることに留意されたい(マシンコード命令の文脈において暗黙の意味は、これを指定するためのオペランドを必要としないことを意味するもので、オペコード自身から暗黙的に理解されるものである)。従って、放棄されるタイムスロットは、スーパーバイザが放棄命令を実行するタイムスロットである。別の言い方をすれば、スーパーバイザは、それが放棄するのと同じ空間で実行している。スーパーバイザが「この場所でこのコード部分をrunする」というと、その時点以降、反復スロットは関連するワーカースレッドによって(一時的に)所有される。
スーパーバイザスレッドSVは、1つ又は複数のタイムスロットの各々において同様の動作を実行して、そのタイムスロットの一部又はすべてをワーカースレッドW0・・・W3(命令メモリ12内のより大きな集合W0・・・Wjから選択された)の異なるそれぞれに放棄する。最後のスロットでそれが実行されると、スーパーバイザは中断される(その後、スロットの1つがワーカーWによって戻されたとき中断したところから再開する)。
このようにスーパーバイザスレッドSVは、インターリーブされた実行時間スロットS0・・・S3の異なるスレッドに、1つ又は複数のタスクを実行する異なるワーカースレッドを割り当てることができる。スーパーバイザスレッドがワーカースレッドを実行する時間であると特定すると、放棄命令(「RUN」)を使用して、このワーカーをRUN命令が実行されたタイムスロットに割り当てる。
いくつかの実施形態では、命令セットはまた、実行命令RUNALL(「全て実行」)の変形を含む。この命令は、複数のワーカーをまとめて起動し、全て同じコードを実行する。実施形態では、これは、処理ユニットのスロットS0・・・S3(又は、より一般的にはS0・・・S(M−1))の一つ残らずにおいてワーカーを立ち上げる。
さらに、いくつかの実施形態では、RUN及び/又はRUNALL命令はまた、これが実行されると、1つ又は複数のスーパーバイザステータスレジスタCXS(SR)からのいくつかの状態を、RUN又はRUNALLによって起動されたワーカースレッド(複数可)の対応する1つ又は複数にコピーする。例えば、コピーされた状態は、浮動小数点丸めモード(例えば、最近への丸め又はゼロへの丸め)及び/又はオーバーフローモード(例えば、飽和又は無限大を表す別個の値の使用)などの1つ又は複数のモードからなっていてもよい。次に、コピーされた状態又はモードは、コピーされた状態又はモードに従って動作するように当該ワーカーを制御する。実施形態では、ワーカーは後でこれを自身のステータスレジスタに上書きすることができる(ただし、スーパーバイザの状態を変更することはできない)。更なる代替又は追加の実施形態では、ワーカーは、スーパーバイザの1つ又は複数のステータスレジスタからいくつかの状態を読み出すことを選択することができる(そしてさらに、後で自身の状態を変更することもできる)。例えば、ここでもスーパーバイザステータスレジスタから浮動小数点モードや丸めモードなどのモードを採用することができる。しかし、実施形態では、スーパーバイザは、ワーカーのコンテキストレジスタCX0・・・のいずれも読み取ることができない。
一旦起動されると、現在割り当てられているワーカースレッドW0・・・W3のそれぞれは、個別の放棄命令によって指定されたコードで定義された1つ又は複数の計算タスクを実行する。最後に、それぞれのワーカースレッドは、実行中のタイムスロットをスーパーバイザスレッドに戻す。これは、終了命令(「EXIT」)を実行することによって達成される。
EXIT命令は、終了時にそれぞれのコードレットの状態を示すために(例えば、 一定の条件が満たされたかを示すために)、プログラマが望む任意な目的に使用される少なくとも1つのオペランド、好ましくは単一のオペランド、exit_state(例えば、バイナリ値)を取る。すなわち、EXIT exit_state。
EXIT命令はスケジューラ24に作用し、命令が実行されるタイムスロットはスーパーバイザスレッドに返ってくるようにする。その後、スーパーバイザスレッドは、1つ又は複数の継続するスーパーバイザタスク(例えば、バリア同期及び/又は他のタイルのような外部リソースとのデータ交換)を実行し、及び/又は新たなワーキングスレッド(W4など)を当該スロットに割り当てるための別の放棄命令を実行し続けることができる。従って、命令メモリ12内のスレッドの総数は、バレルスレッド処理ユニット10がいつでもインターリーブすることができる数よりも大きくてよいことに再度留意されたい。スーパーバイザスレッドSVの役割は、スケジューラ24のラウンドロビンスケジュール内でインターリーブされたタイムスロットS0・・・SMのどれに、プログラム全体のどの段階で命令メモリ12からのワーカースレッドW0・・・Wjのどれを割り当てるかをスケジュールすることである。
さらに、EXIT命令には特別な機能、すなわちEXIT命令のオペランドに指定された終了状態を、同じプロセッサモジュール4(例えば、同じタイル)の同じパイプライン13で実行されている複数のワーカースレッドの終了状態に(専用のハードウェアロジックにより)自動的に集合させる機能が与えられている。従って、追加の暗黙的な機能がワーカースレッドを終了させる命令に含まれている。
これを実現する回路例を図5に示す。この実施例では、個々のスレッドの終了状態及び集合された終了状態は、それぞれ単一ビット、すなわち0又は1の形態をとる。プロセッサモジュール4は、そのプロセッサモジュール4の集合された終了状態を記憶するためのレジスタ38を含む。このレジスタは、本明細書では、「ローカルコンセンサス」レジスタ$LCと呼ばれる(後ほど詳細に説明する、プロセッサモジュール4が類似のプロセッサタイルの配列のうちの1つとして含まれる場合のグローバルコンセンサスとは対照的である)。実施形態では、このローカルコンセンサスレジスタ$LC38は、スーパーバイザのコンテキストレジスタファイルCXS内のスーパーバイザのステータスレジスタの1つである。アグリゲーションを実行するロジックは、(A)EXIT命令のオペランドに指定された終了状態と(B)ローカルコンセンサスレジスタ($LC)38における現在値の論理ANDを実行して、アウトカム(Q)をローカル集合レジスタの新しい値としてローカルコンセンサスレジスタ$LC38に出力し戻すように配列されたANDゲートからなっている。
プログラム中の適切な同期ポイントでは、ローカルコンセンサスレジスタ($LC)38に記憶された値は、最初に値1にリセットされ、このポイントの後に終了するどのスレッドも、次回のリセットまでローカルに集合された終了状態$LCに寄与する。ANDゲート37の出力(Q)は、両方の入力(A、B)が1の場合には1であるが、そうでない場合は、入力A、Bのいずれかが0であれば出力Qは0になる。EXIT命令が実行されるたびに、その終了状態は、以前に実行された状態(最終リセット以降)に集合される。従って、図5に示す構成により、ロジックは、ローカルコンセンサスレジスタ($LC)38が最後にリセットされてからEXIT命令によって終了したワーカースレッドの終了状態の実行集合体を保持する。この実施例では、実行中の集合体は、これまでの全てのスレッドが本当に終了したかどうかを参照し、いずれかのワーカースレッドからの0の終了状態は、レジスタ38内の集合体が次のリセットまで0にラッチされることを意味する。実施形態では、スーパーバイザSVは、ローカルコンセンサスレジスタ($LC)38から現在値を取得することによって、いつでも実行中の集合体を読み取ることができる(オンタイル同期化がそうすることを待つ必要がない)。
ローカルコンセンサスレジスタ($LC)38における集合体のリセットは、1つ又は複数の汎用命令を使用してスーパーバイザSVがローカルコンセンサスレジスタ($LC)38のレジスタアドレスにPUTを入力することによって、この実施例では、レジスタ38に1の値を入力することにより実行することができる。これとは別に、例えば、本明細書で後述するSYNC命令を実行することによってトリガされるような、自動化された機構によってリセットが実行され得ることを排除するものではない。
アグリゲーション回路37(この場合はANDゲート)は、ブールANDの機能を形成するための電子コンポーネントの任意の適切な組み合わせを使用して、実行ステージ18における実行ユニット内の専用ハードウェア回路に実装される。専用回路又はハードウェアとは、汎用コードを使用してソフトウェアでプログラムされるのではなく、ハードワイヤード機能を有する回路を意味する。ローカル終了状態の更新は、終了状態を集合する固有の機能を有した特殊なEXIT命令の実行によってトリガされるが、これは、プロセッサモジュール4の命令セットにおける基本的な機械コード命令の1つであって、終了状態を集合する固有の機能を有している。また、ローカル集合体は、制御レジスタ38に記憶されており、その値はパイプライン上で実行されているコードによってアクセスすることができるが、任意の汎用データを記憶するロードストアユニット(LSU)によっては使用できない記憶装置の一部(実施形態では記憶装置の単一ビット)を意味する。代わりに、制御レジスタに保持されたデータの機能は固定されており、この場合はローカルに集合された終了状態を記憶する機能に固定されている。好ましくは、ローカルコンセンサスレジスタ($LC)38は、その値はスーパーバイザがGET命令を実行することによってアクセスすることができ、PUT命令を実行することによって設定することができるプロセッサモジュール4上の(例えば、タイル上の)制御レジスタの1つを形成する。
図5に示す回路は単なる一実施例にすぎないことに留意されたい。等価回路は、ANDゲート37をORゲートで置き換え、ソフトウェアで終了状態0と1の解釈を反転させることであろう、すなわち0→真、1→偽に反転させることであろう(各同期点において1ではなく0にリセットされるレジスタ38で)。同様に、ANDゲートがORゲートで置き換えられるが終了状態の解釈は反転もされずリセット値でもない場合、$LCの集合状態は、ワーカー状態のいずれかが(全てではなく)が状態1で終了したかどうかを記録することになる。他の実施形態では、終了状態は単一ビットである必要はない。例えば、個々のワーカーの終了状態は1ビットであってもよいが、集合された終了状態$LCは、3値の状態、すなわち、全てのワーカーは状態1で終了した、全てのワーカーは状態0で終了した、又はワーカーの終了状態は混合であったかを表す2ビットからなっていてもよい。これを実現するロジックの一実施例として、3値を符号化する2つのビットのうちの1つは、個々の終了状態のブールAND(又はOR)であって、3値の他のビットは、個々の終了状態のブールORであってもよい。次いで、これらの2つのビットの排他的論理和として、ワーカーの終了状態が混在していることを示す第3の符号化されたケースを形成することができる。
終了状態は、プログラマが望むものは何でも表すために使用することができるが、具体的に想定される1つの実施例は、それぞれのワーカースレッドが「成功」状態又は「真」状態で抜け出たことを示すために1との終了状態を使用する一方、0の終了状態をそれぞれのワーカースレッドが「不成功」又は「偽」状態で抜け出たことを示す(アグリゲーション回路37がANDの代わりにORを実行し、レジスタ$LC38が最初に0にリセットされる場合、その逆になる)ように使用できる。例えば、各ワーカースレッドが、機械知能アルゴリズムのグラフ内で個別のノードの1つ又は複数のパラメータにおけるエラーが、所定のメトリックに従って許容可能なレベルに収まっているかどうかを示す条件など、各ワーカースレッドが関連する条件を有する計算を実行するアプリケーションを考える。この場合、1つの論理レベル(例えば、1)を有する個々の終了状態を条件が満たされている(例えば、ノードの1つ又は複数のパラメータにおける1つ又は複数のエラーは、いくつかのメトリックに従って許容可能なレベル内にある)ことを示すために用い、反対の論理レベル(例えば、0)を有する個々の終了状態を条件が満たされない(例えば、エラーが当該メトリックに従って許容レベル内にない)ことを示すために用いることができる。条件は、例えば、単一のパラメータ又は各パラメータに置かれたエラー閾値であってもよく、ワーカースレッドによって実行されるそれぞれの計算に関連する複数のパラメータのより複雑な関数にもなり得る。
別のより複雑な実施例として、ワーカーの個々の終了状態及び集合された終了状態は、それぞれ2つ以上のビットから構成されていてもよく、これらは、例えば、ワーカースレッドのアウトカムにおける信頼度を表すために使用され得る。例えば、各ワーカースレッドの終了状態は、個別のワーカースレッドのアウトカムにおける確信度の尺度を表し、アグリゲーションロジック37は、ハードウェア内の個々の信頼レベルの確率的な集合を実行するためにより複雑な回路で置き換えてもよい。
プログラマが終了状態にどのような意味を与えても、次にスーパーバイザスレッドSVはローカルコンセンサスレジスタ($LC)38から集計された値を取得して、例えば、最後の同期点で、最後にリセットされてから抜け出た全てのワーカースレッドの集合された終了状態を特定すること、例えば、全てのワーカーが成功又は真の状態で抜け出たかどうかを特定することができる。この集合された値に依存して、スーパーバイザスレッドはプログラマの設計に従ってその後に決定を下してもよい。プログラマは、自身が望むローカルに集合された終了状態をどのように使っても構わない。例えば、スーパーバイザスレッドは、ローカル集合された終了状態を参照して、ワーカースレッドの特定のサブセットで構成されたプログラムの特定の一部が、期待どおりに又は所望どおりに完了したかどうかを特定することができる。そうでない場合(例えば、ワーカースレッドの少なくとも1つが不成功又は偽の状態で抜け出たとき)、それはホストプロセッサに報告してもよく、あるいは、同じワーカースレッドを含むプログラムの部分で別の反復を実行してもよいが、もしそうであれば(例えば、全てのワーカースレッドが成功又は真の状態で終了した場合)、代わりに1つ又は複数の新たなワーカーを含むプログラムの別の部分に分岐してもよい。
好ましくは、スーパーバイザスレッドは、そこに記憶された値が全て所望するスレッドの正確で最新の集合状態を表すように、当該全てのワーカースレッドが終了するまで、ローカルコンセンサスレジスタ($LC)38内の値にアクセスすべきではない。これを待機することは、現在実行中の全てのローカルワーカースレッド(すなわち、同じプロセッサモジュール4上のもので、同じパイプライン13を介して実行中のスレッド)が終了するのを待機するために、スーパーバイザスレッドによって達成されるバリア同期によって実行されてもよい。換言すれば、スーパーバイザがローカルコンセンサスレジスタ($LC)38から集合された終了状態を取得することを許可される前に、全ての未処理のワーカースレッドが終了するのを待機するために、スーパーバイザスレッドは、ローカルコンセンサスレジスタ($LC)38をリセットし、複数のワーカースレッドを起動して、次にローカルバリア同期(処理モジュール4に対してローカルであり、1つのタイルに対してローカルな)を開始する。
図6を参照すると、実施形態では、SYNC(同期)命令がプロセッサの命令セットに提供される。SYNC命令は、現在実行中の全てのワーカーWがEXIT命令によって終了するまでスーパーバイザスレッドSVを待機させる効果がある。実施形態では、SYNC命令はオペランド(実施形態ではその唯一のオペランド)としてモードを取り込み、このモードは、例えば、SYNCがその一部として実行されるスーパーバイザとしての同じタイルで、SYNCが同じプロセッサモジュール4上でローカルに動作するワーカースレッドのみに対してローカルでのみ(すなわち、同じバレルスレッド処理ユニット10の同じパイプライン13を通るスレッドのみ)動作するかどうかを指定し、あるいは、代わりに複数のタイルに又は複数のチップにわたって適用するかどうかを指定する。
SYNCモード//モード∈{tile、chip、zone_1、zone_2}
これについてはより詳細に後述するが、図6では、ローカルSYNC(「SYNCタイル」、すなわち単一のタイル内での同期)が想定される。
バレルスレッド処理ユニット10のタイムスロットS0、S1、・・・のいずれもが占有されなくなるまでスーパーバイザSVは自動的に待機することが暗示されるので、ワーカーはSYNC命令のオペランドとして識別される必要はない。図6に示すように、ワーカーWLnの現行のバッチそれぞれがスーパーバイザによって全て起動されると、スーパーバイザは次にSYNC命令を実行する。スーパーバイザSVがバレルスレッド処理ユニット10の全てのスロットS0・・・3(図示の例では全て4つであるが、これは単なる一実施例である)でワーカーWを立ち上げると、一旦ワーカースレッドWLnの現行のバッチのうちの最初のバッチが終了してSYNCが実行されることになり、少なくとも1つのスロットの制御をスーパーバイザSVに返す。それ以外の場合、ワーカーが全てのスロットを占有しないならば、現行のバッチWLnの最後のスレッドが起動された直後にSYNCが実行されることになる。いずれにせよ、SYNCは、スーパーバイザが処理を進め得る以前にEXITを実行するために、ワーカーWLn−1の現行のバッチにおける他の全てを待機させるべくスーパーバイザSVに命じる。その後に限り、スーパーバイザはローカルコンセンサスレジスタ($LC)38のコンテンツを取得するためにGET命令を実行する。一旦SYNCが実行されると、すなわちSYNC命令のオペコードに応答して、スーパーバイザスレッドによるこの待機はハードウェアに課され、実行ステージ18の実行ユニット(EXU)内におけるロジックは、全ての未処理のワーカースレッドがEXIT命令を実行するまで、フェッチステージ14及びスケジューラ24にスーパーバイザスレッドの命令を発することを一時停止させる。ローカルコンセンサスレジスタ($LC)38の値を得た後のある時点で(任意に、その間にいくつかのスーパーバイザコードを伴って)、スーパーバイザはPUT命令を実行してローカルコンセンサスレジスタ($LC)38をリセット(図示の実施例では1に)する。
図6にも示すように、SYNC命令は、ワーカースレッドの異なる相互依存レイヤーWL1、WL2、WL3、・・・の間に同期バリアを配置するために使用してもよく、各連続レイヤー内における1つ以上のスレッドは、1つ又は複数のワーカースレッドをその前のレイヤーに配置する。スーパーバイザスレッドによって実行されるローカルSYNCは、直前のレイヤーWLn内で全てのワーカースレッドが(EXIT命令を実行することによって)終了するまで、次のレイヤーWLn+1内でワーカースレッドのいずれもが実行されないことを保証する。
上述したように、実施形態では、プロセッサモジュール4は、マルチタイルプロセッサを形成する相互接続されたタイル配列の1つとして実装されてもよく、各タイルは、図1〜6に関連して上述したように構成してもよい。
これは図7にさらに図示されており、単一のチッププロセッサ2、すなわち複数のプロセッサタイル4の配列6及びタイル4間を接続するオンチップ相互接続34からなる単一のダイを示している。チップ2は、それ自身の単一チップ集積回路パッケージ上に単独で、又は同じICパッケージ内にパッケージされた複数のダイのうちの1つとして実装してもよい。オンチップ相互接続は、タイル4が相互にデータを交換することを可能にするために、本明細書では「交換ファブリック」34と呼ぶこともできる。各タイル4は、バレルスレッド処理ユニット10及びメモリ11のそれぞれのインスタンスからなり、それぞれ図1〜図6に関連して上述したように構成されている。例えば、実例としてチップ2は、何百ものタイル4、さらには1000を超えるタイルから構成されてもよい。完璧を期するために、本明細書で言及される「配列」は、タイル4の任意な特定の次元数又は物理的レイアウトを必ずしも暗示してはいないことにも留意されたい。
実施形態では、各チップ2はまた、1つ以上の外部リンク8を備え、チップ2を異なるチップ上(例えば、同じチップ2の1つ又は複数の他のインスタンス)で1つ以上の他の外部プロセッサに接続することを可能にしている。これらの外部リンク8は、チップ2をホストプロセッサに接続するための1つ又は複数のチップ−ホスト間リンク、及び/又は同じICパッケージ又はカード上で、あるいは、異なるカード上でチップ2の他のインスタンスと接続するための1つ又は複数のチップ−チップ間リンクの1つ又は1以上を備えている。一実施例の構成では、チップ2は、チップ2によって処理される入力データの形態でチップ−ホスト間リンクの1つを介してチップに接続されたホストプロセッサ(図示せず)から作業を受信する。チップ2の複数のインスタンスは、チップ−チップ間リンクによってカードに相互に接続することができる。このようにしてホストは、ホストに必要な作業負荷に応じて、複数の相互接続されたカード上に場合により配置された複数の単一チッププロセッサ2として、あるいは、複数の単一チッププロセッサ2として構築されたコンピュータにアクセスすることができる。
相互接続34は、配列6内の異なるプロセッサタイル4が互いにオンチップ2で通信できるように構成されている。しかし、潜在的に同じタイル4上でスレッド間の依存性が存在するだけでなく、配列6内の異なるタイル4上で実行されるプログラムにおける部分間の依存性も存在する可能性がある。従って、それが依存するデータに先んじて実行される1つのタイル4上のコード片が、別のタイル4上の別のコード片によって利用可能になるのを防ぐ技術が必要とされる。
実施形態では、これは、図8及び図9に概略的に示されるように、バルク同期並列(BSP)交換方式を実装することによって達成される。
BSPの1つのバージョンによれば、各タイル4は、タイル間のバリア同期30によって一方から他方へと分離された交代サイクルで計算段階52及び交換段階50を実行する。図示の例では、各計算段階52と後続の交換段階50との間にバリア同期が設けられている。計算段階52の間に、各タイル4は、タイル上でローカルに1つ以上の計算タスクを実行するが、これら計算のアウトカムをタイル4上の他のタスクと通信しない。交換段階50では、各タイル4は、先行する計算段階からの計算の1つ以上のアウトカムを、群内で1つ以上の他のタイルへ、及び/又は1つ以上の他のタイルから交換することが許可されるが、そのタスク(複数可)が依存関係を有するデータを他のタイル4から受信するまでは新たな計算を実行しない。先行の計算段階で計算されたデータ以外のデータも他のタイルに送信されない。これは、交換段階において内部管理関連業務のような他の業務を行うことを排除するものではない。実施形態では、交換段階50には、非時間決定論的な計算は含まれないが、交換段階50の間に、少数の時間決定論的な計算を任意に許容してもよい。計算を実行するタイル4は、計算段階52の間に、同期されている群内の他のタイル4との通信を伴わない限り、例えば、ネットワークカード、ディスクドライブ、又はフィールドプログラマブルゲート配列(FPGA)のように同期されているタイル4の配列の外部にある他の外部システムリソースと通信することを許可されてもよいことにも留意されたい。タイル群の外部通信は、任意でBSPメカニズムを利用してもよいが、代わりにBSPを利用せず、それ自身の他の何らかの同期メカニズムを使用することができる。
BSPの原理によれば、バリア同期30は、計算段階52から交換段階50へ、又は交換段階50から計算段階52へ、あるいは、その両方へ移行する岐路に置かれる。すなわち、(a)群内のいずれかが次の交換段階50に進むことが許可される前に、全てのタイル4がそれぞれの計算段階52を完了する必要があるか、(b)群内のいずれかのタイルが次の計算段階52に進むことが許可される前に、群内の全てのタイル4がそれぞれの交換段階50を完了することが要求されるか、(c)これらの条件の両方が実行されるかのいずれかである。3つの全ての変形では、段階を交互に行うのは個々のプロセッサであり、同期するアセンブリ全体である。交換及び計算段階のシーケンスは、複数回にわたって繰り返されてもよい。BSP用語では、交換段階と計算段階の各繰り返しは、「スーパーステップ」と呼ばれることがある(ただし、文献では常に用語が一貫して使用されているわけではないが、時には個々の交換段階と計算段階を個別にスーパーステップと呼ぶ一方で、他の文献では、本明細書で採用されている用語のように、交換及び計算段階はともにスーパーステップと呼ばれる)。
また、同様に留意されたいが、同じチップ2又は異なるチップ上でタイル4の複数の異なる独立した群が、互いに非同期的に動作する個別のそれぞれのBSP群を形成し、計算、同期及び交換のBSPサイクルがそれぞれ所与の群内でのみ課されることを伴うが、他の群とは独立してそれを実行する各群、すなわちマルチタイル配列6が、それぞれ他のそのような群と独立して非同期的に動作する複数の内部同期群(より詳細に詳述する)を含む可能性があることを除外するものではない。
図9は、(a)計算段階52から交換段階50へのバリア同期(上述を参照のこと)を課す場合、配列6内のタイルのいくつか又は全ての群4i、4ii、4iiiの間で実行されるBSP原理を示している。この構成では、いくつかのタイル4は計算を開始することが許可されているが、他のタイル4はまだ交換されていることに留意されたい。
本明細書に開示された実施形態によれば、このタイプのBSPは、バリア同期、すなわちSYNC命令を実行するための機械コード命令に追加の特別な専用機能を組み込むことによって容易にすることができる。
実施形態では、SYNC関数は、オペランドとしてタイル間モード(例えばオンチップモード:SYNC chip)によって修飾されたときにこの機能性を取る。
これは図10に概略的に示されている。各タイル4がマルチスレッド処理ユニット10からなる場合、各タイルの計算段階52は、実際には同じタイル4上の複数のワーカースレッドWによって実行されるタスクからなっていてもよい(そして、所与のタイル4上の所与の計算段階52が、ワーカースレッドの1つ以上のレイヤーWLを含んでいてもよく、複数のレイヤーの場合、これらは前述したようにオペランドとしてのローカルオンタイルモードを有するSYNC命令を使用して内部バリア同期によって分離されてもよい)。所与のタイル4上のスーパーバイザスレッドSVが現行のBSPスーパーステップで最後のワーカースレッドを開始すると、そのタイル4上のスーパーバイザは、オペランド:SYNC chipとしてセットされたタイル間モードを有するSYNC命令を実行する。スーパーバイザが、それぞれの処理ユニット10の全てのスロット内でワーカースレッドを起動「RUN」させると、現在のBSPスーパーステップでそれ以上のワーカーを実行するためにもはや必要とされない最初のスロットがスーパーバイザに戻されてすぐに、「SYNC chip」が実行される。例えば、これは最後のレイヤーWLでEXITする最初のスレッドの後に、又は単一のレイヤーしかない場合にはEXITする最初のワーカースレッドの後に発生する可能性がある。さもなければ、現行のBSPスーパーステップでワーカーを実行するために全てのスロットを使用するわけではない場合、現行のBSPスーパーステップで実行する必要がある最後のワーカーがRUNされるとすぐに「SYNC chip」を実行することができる。これは、一旦最後のレイヤー内の全てのワーカーがRUNになると、又はレイヤーが1つしか存在しない場合には、単に全てのワーカースレッドがRUNになった後に発生する可能性がある。
実行ステージ18の実行ユニット(EXU)は、SYNC命令のオペコードに応答して、オンチップ(タイル間)オペランドによって修飾されたときに、配列6内の全てのタイル4がワーカーの実行を終了するまで、「SYNC chip」が実行されたスーパーバイザスレッドに一時停止されるよう命じる。これは、次のBSPスーパーステップへのバリアを実装するために使用でき、すなわち、チップ2上の全てのタイル4がバリアを通過した後、全体としてクロスタイルプログラムは次の交換段階50に進むことができる。
図11は、本明細書に開示された実施形態による「SYNC chip」によってトリガされるロジックを示す概略図である。
一旦スーパーバイザがスレッドの全てを起動(RUN)すると、現行の計算サイクル52で実行することを意図し、次にオンチップのタイル間オペランド:SYNC chipを使用してSYNC命令を実行する。これにより、タイル4上の専用同期ロジック39、及びハードウェア相互接続34に実装された同期コントローラ36において、以下の機能性がトリガされる。相互接続34におけるオンタイル同期ロジック39と同期コントローラ36との両方のこの機能性は、一旦SYNC chipが実行されると、残りの機能性は、それを実行するためのさらなる命令を実行することなく進行するように専用のハードウェア回路に実装されている。
最初に、オンタイル同期ロジック39は、当該タイル4上のスーパーバイザに対する命令発行を自動的に中断させる(フェッチステージ14及びスケジューラ24にスーパーバイザの発行命令を中断させる)。ローカルタイル4上における全ての未処理のワーカースレッドがEXITを実行すると、同期ロジック39は、同期リクエスト「sync_req」を相互接続34内の同期コントローラ36に自動的に送信する。その時、ローカルのタイル4は、スーパーバイザ命令の発行が一時停止した状態で待機し続ける。配列6内の他のタイル4(それぞれが同期ロジック39のそれ自身のインスタンスを含む)の各々にも同様のプロセスが実装される。従って、ある時点で、現行の計算段階52の最終ワーカーが全て配列6内の全てのタイル4上でEXIT(抜け出る)すると、同期コントローラ36は配列6内の全てのタイル4からそれぞれの同期要求(sync_req)を受信することになる。そのとき初めて、同期コントローラ36は、同じチップ2上の配列6内の全てのタイル4からsync_reqを受信したことに応答して、同期確認信号sync_ackを各タイル4上の同期ロジック39に送り返す。この時点まで、タイル4の各々は、同期肯定応答信号(sync_ack)を待機しているスーパーバイザ命令の発行を一時停止させている。sync_ack信号を受信すると、タイル4内の同期ロジック39は、そのタイル4上のそれぞれのスーパーバイザスレッドに関するスーパーバイザ命令発行を自動的に解除する。その後、スーパーバイザは、後続の交換段階50において相互接続34を介して他のタイル4とのデータ交換を自由に進めることができる。
好ましくは、sync_req及びsync_ack信号は、各タイル4を相互接続34内の同期コントローラ36に接続する1つ又は複数の専用同期ワイヤを介して、同期コントローラとの間でそれぞれ送受信される。
さらに、本明細書で開示される実施形態によれば、追加の機能性がSYNC命令に含まれる。すなわち、少なくともタイル間モード(例えば、SYNC chip)で実行されるとき、SYNC命令は、同期化されたタイル4の各々のローカル終了状態$LCを、相互接続34内の別の専用ハードウェア40内で自動的に集合させる。図示される実施形態では、このロジックは多入力ANDゲート(配列6内の各タイル4の1つの入力)、例えば、図11に実施例として示すように、2入力ANDゲート40i、40ii、・・・のストリングから形成される形態をとる。このタイル間アグリゲーションロジック40は、配列内の各タイル4からのローカル終了状態レジスタ(ローカルコンセンサスレジスタ)$LC38の値を受信するが、実施形態ではそれぞれ単一ビットで受け取り、それらを単一の値、例えば、全てのローカルに集合された終了状態のANDに集合する。従って、ロジックは、配列6内の全てのタイル4上の全てのスレッドにわたってグローバルに集合された終了状態を形成する。
タイル4の各々は、グローバルアグリゲーションロジック40からのグローバル終了状態を受け取り、相互接続34内に記憶するように配列されたグローバルコンセンサスレジスタ($GC)42の個別のインスタンスを含む。実施形態では、これは、スーパーバイザのコンテキストレジスタファイルCXS内のステータスレジスタのもう1つである。配列6内の全てのタイル4から受信された同期要求(sync_req)に応答して、同期コントローラ36は、アグリゲーションロジック40の出力(例えば、ANDの出力)を各タイル4上でグローバルコンセンサスレジスタに記憶させる(図11に示す「スイッチ」は機能性の概略図であり、実際には任意の適切なデジタルロジックによって更新を実行してもよいことは理解されよう)。このレジスタ$GC42は、一旦スーパーバイザ命令発行が再開されると、各タイル4上のスーパーバイザスレッドSVによってアクセス可能である。実施形態では、グローバルコンセンサスレジスタ$GCは、制御レジスタファイル内の制御レジスタとして実装され、スーパーバイザスレッドは、グローバルコンセンサスレジスタ($GC)42内の値をGET命令によって取得することができる。同期ロジック36は、グローバルコンセンサスレジスタ($GC)42のいずれかで値を更新する前に、sync_reqが全てのタイル4から受信されるまで待機し、さもなければ、計算段階52のその部分をまだ完了しておらず、従って依然として実行中のタイル上でスーパーバイザスレッドに不正な値をアクセス可能にしてしまうことがある。
グローバルに集合された終了状態$GCは、プログラムが、個々のタイル上で個別の各ワーカースレッドの状態を1つ1つ調べる必要なくして、複数の異なるタイル4上で実行されているプログラムのパーツの全体的なアウトカムを特定できるようにする。これは、プログラマが望む任意の目的に使用することができる。例えば、グローバル集合体がブールANDである図11に示す実施例では、これは、いずれかの入力が0ならば集合体が0になり、すべての入力が1ならば集合体が1となることを意味している。すなわち、1が真又は成功アウトカムを表すために使用される場合、これは、タイル4のいずれかのローカル終了状態が偽又は不成功であるならば、グローバル集合状態も偽であるか、又は不成功のアウトカムを表すであろうことを意味する。例えば、これは、全てのタイル上で実行されているコードのパーツが全て所定の条件を満たすかどうかを特定するために使用できる可能性がある。従って、プログラムは、個々のタイル上で個別のワーカースレッドの個々の状態を調べる必要なくして、単一のレジスタ(実施形態では単一ビット)に「何かが間違っていたか? 諾否は?」又は「グラフの全てのノードが許容可能なエラーレベルに達したか? 諾否は?」と質問することができる(そしてまた実施形態では、スーパーバイザは、実際には終了状態レジスタ38を介する以外にワーカーの状態を照会することができない)。言い換えれば、EXIT及びSYNC命令はそれぞれ、複数の個々の終了状態を単一の結合状態にまとめる訳である。
1つの使用例では、1つ又は複数のタイル上のスーパーバイザは、グローバル集合体が偽又は不成功のアウトカムを示したかどうかをホストプロセッサに報告することもできる。別の実施例として、プログラムは、グローバル終了状態に応じて分岐判断を実行してもよい。例えば、プログラムはグローバル集合終了状態$GCを調べ、これに基づいてループを続行するかどうか、又は別の場所に分岐するかどうかを判定する。グローバル終了状態$GCが依然として偽であるか不成功である場合、プログラムは同じ最初のプログラム部分を反復し続けるが、一旦グローバル終了状態$GCが真であるか又は成功すると、プログラムはプログラムの第2の異なるパーツに分岐する。分岐判定は、各スーパーバイザスレッドで個別に実行されてもよいし、マスターの役割を担うスーパーバイザの1つが他のタイル上で他のスレーブスーパーバイザに指示してもよい(マスターの役割はソフトウェアで構成されている)。
図11に示すアグリゲーションロジック40は単なる一実施例に過ぎないことに留意されたい。別の等価な実施例では、ANDをORで置き換えることができ、0と1の解釈を反転することができる(0→真、1→偽)。同様に、ANDゲートがORゲートで置き換えられても終了状態の解釈が反転されず、リセット値も反転されなければ、$GCに集合された状態は、タイルのいずれか(すべてではなく)がローカルに集合された状態1で抜け出たかどうかを記録することになる。別の実施例では、グローバル終了状態$GCは、3値状態:全てのタイルのローカル集合された終了状態$LCは状態1であって、全てのタイルのローカル集合された終了状態$LCは状態0であった、又はタイルのローカルに集合された終了状態$LCはミックスされた、を表す2ビットからなっていてもよい。別のより複雑な実施例として、タイル4のローカル終了状態及びグローバルに集合された終了状態は、それぞれが2ビット以上からなっていてもよく、例えば、タイル4のアウトカムにおける信頼度を表すために使用することができる。例えば、個々のタイルのローカルに集合された終了状態$LCは、個別のタイル4の結果における統計的確率的信頼度の尺度を表すことができ、グローバルアグリゲーションロジック40は、ハードウェア内における個々の信頼レベルの統計集約を実行するために、より複雑な回路に置き換えてもよい。
前述したように、実施形態では、チップ2の複数のインスタンスを互いに接続して、複数のチップ2にわたるさらに大きなタイル4の配列を形成することができる。これは、図12に図示されている。チップ2のいくつか又は全てが同じICパッケージに実装されてもよく、チップ2のいくつか又は全てが異なるICパッケージに実装されてもよい。チップ2は、外部相互接続72によって(図7に示す外部リンク8を介して)互いに接続されている。外部交換周辺装置72は、異なるチップ上のタイル4間でデータを交換するための通り道(conduit)を提供するとともに、異なるチップ2上でタイル4間のバリア同期を実行し、異なるチップ2上でタイル4のローカル終了状態を集合するハードウェアサポートも提供する。
実施形態では、SYNC命令は、そのモードオペランドのさらに可能な少なくとも1つの値をとり、外部の、すなわちチップ間同期:SYNC zone_nを指定することができ、ここではzone_nは外部同期ゾーンを表す。外部相互接続72は、図11に関連して説明されたものと同様のハードウェアロジックを含むが、外部のチップ間スケールである。そのオペランドで指定された2つ以上のチップ2の外部同期ゾーンでSYNC命令が実行されると、これにより、外部相互接続72内のロジックは、内部相互接続34に関して説明したものと同じような方法で動作するが、指定された同期ゾーン内における複数の異なるチップ2上のタイル4にわたって動作する。
換言すれば、外部SYNCに応答して、外部同期ゾーン内の全てのチップ2で全てのタイル4がそれらの計算段階52を完了し、同期要求を提出するまで、スーパーバイザ命令の発行が一時停止される。さらに、外部相互接続72内のロジックは、当該ゾーン内の複数のチップ2にわたって、これらのタイル4の全てのローカル終了状態を集合する。外部同期ゾーン内の全てのタイル4が同期要求を行うと、外部相互接続72は同期肯定応答をタイル4に戻して通知し、当該全てのタイル4のグローバルコンセンサスレジスタ($GC)42にクロスチップグローバル集合終了状態を記憶する。上記の同期肯定応答に応答して、ゾーン内における全てのチップ2のタイル4は、スーパーバイザのために命令発行を再開する。
実施形態では、相互接続72の機能性は、チップ2内に実装されてもよく、すなわち、チップ間の有線接続のみが必要となるようにロジックがチップ2に分散されてもよい(図11及び図12は概略図である)。
前述の同期ゾーン内の全てのタイル4は、それぞれの個別のSYNC命令のモードオペランドを介して同じ同期ゾーンを示すようにプログラムされている。実施形態では、外部相互接続周辺装置72の同期ロジックは、プログラミングエラー又は他のエラー(メモリパリティエラーなど)に起因しない場合、一部又は全てのタイル4が肯定応答を受信しないように構成されており、従って、システムは次の外部バリアで停止し、中央演算処理ユニットCPU(例えば、ホスト)がデバッグ又はシステム回復のために介入することを可能にする。他の実施形態では、同期ゾーンが一致しない場合にエラーが発生する。しかし、好ましくはコンパイラが、同じゾーン内のタイルが全て、時間関連で同一な正しい同期ゾーンを示すように構成されている。
図13は、内部(オンチップ)同期と外部(チップ間)同期の両方を含む例示的なBSPプログラムフローを示す。図示のように、内部交換機50(同一チップ2上のタイル4間のデータの)を外部交換機50’(異なるチップ2上のタイル4間のデータの)から分離することが好ましい。この理由の1つは、グローバル同期によって画定される複数のチップ間にわたってのグローバルな交換が、単なるオンチップ同期及び交換の場合よりもレイテンシ及び負荷分散の複雑さの面でより高価になる可能性があるためである。別の考えられる理由は、内部(オンチップ)相互接続34を介したデータの交換を時間決定論的にすることができるが、実施形態では外部相互接続72を介したデータの交換は非時間決定論的であり得る。このようなシナリオでは、外部の同期及び交換プロセスが内部同期と交換を「汚染」しないように、内部交換と外部交換を分離すると有益なことがある。
従って、このような分離を達成するために、実施形態では、プログラムは、次の順番で、すなわち(i)第1の計算段階、次いで(ii)内部バリア同期30、次いで(iii)内部交換段階50、次いで(iv)外部バリア同期80、次いで(v)外部交換段階50’からなる同期シーケンス、交換段階及び計算段階を行うように配列されている。図13のチップ2IIを参照されたい。外部バリア80は、プログラムが内部交換50の後に外部交換50’にのみ進むように、内部交換50の後に課される。また、図12のチップ2Iに関して示されているように、任意選択で、内部交換(iii)と外部バリア(iv)との間に計算段階が含まれてもよいことに留意されたい。全体的なシーケンスは、プログラムによって実行され(例えば、コンパイラによって生成される)、内部同期及び交換は、別のチップ2上のいかなるタイル又は他のエンティティに拡張されない。シーケンス(i)〜(v)(iiiとivとの間の前述した任意の計算段階を伴う)は、一連の全体的反復で繰り返されてもよい。反復ごとに、外部同期&交換に先立って、内部計算、同期及び交換(i)〜(iii)の複数のインスタンスが存在してもよい。
外部交換50の間、通信は外部のみに限定されず、一部のタイルは単に内部交換を行うことができ、いくつかは外部交換を行うことができ、またいくつかはその両方を行うことができることに留意されたい。また、図13に示すように、任意な所与のBSPスーパーステップにおいて、ヌル計算段階52又はヌル交換段階50を有することが一般に可能であることに留意されたい。
いくつかの実施形態では、図13に示すように、いくつかのタイル4は、計算段階中にローカル入出力を実行してもよく、例えば、ホストとデータを交換してもよい。
図14に示すように、実施形態では、SYNC命令のモードを使用して、複数の異なる可能な外部同期ゾーン、例えば、zone_1又はzone_2のうちの1つを指定することができる。実施形態では、これらは異なる階層に対応する。すなわち、各上位階層92(例えば、ゾーン2)は、少なくとも1つの下位階層の2つ以上のゾーン91A、91Bを包含する。実施形態では、2つの階層しか存在しないが、より多くの入れ子レベルは除外されない。SYNC命令のオペランドが外部同期ゾーンの下位階層(SYNC zone_1)に設定されている場合、SYNCが実行されたタイルと同じ下位階層の外部同期ゾーン内においてチップ2上のタイル4に対して上記の同期及び集合動作が実行される。これに反して、SYNC命令のオペランドが外部同期ゾーンの上位階層(SYNC zone_2)に設定されている場合、SYNCが実行されたタイルと同じ高位階層の外部同期ゾーン内において、全てのチップ2上の全てのタイルに対して上記の同期及び集合動作が自動的に実行される。実施形態では、同期ゾーンの最高位階層は全てのチップを包含し、すなわち、それはグローバル同期を実行するために使用される。複数の下位階層ゾーンが使用される場合、BSPは、各ゾーン内のチップ(複数可)2上におけるタイル4の群間で内部的に適用されてもよいが、各ゾーンは、グローバル同期が実行されるまで、互いに非同期に動作してもよい。
他の実施形態では、SYNC命令のモードによって指定することができる同期ゾーンは、性質上階層的であることが必須ではないことに留意されたい。一般に、SYNC命令は、任意な種類の群に対応するモードを備えていてもよい。例えば、モードは、非階層群のみ、又は階層群と1つ以上の非階層群(少なくとも1つの群が別の群内に完全に入れ子にされていない)の混合から選択することができる。これにより、プログラマ又はコンパイラにとっては有利なことに、コード密度を最小限にして、互いに非同期である内部同期群の様々なレイアウト間で選択する柔軟性が可能となる。
選択された同期群91、92の間で同期を実現するための例示的な機構が、図16に示されている。図示されているように、外部相互接続72内の外部同期ロジック76は、それぞれのチップ2に関連するそれぞれの同期ブロック95を含む。各同期ブロック95は、それぞれのゲーティングロジックと、それぞれの同期アグリゲータとからなっている。ゲーティングロジックは、デイジーチェーントポロジーでチップ2を相互接続して、同期及び終了状態集合を目的とし、同期及び終了状態情報を以下に従って伝搬するハードウェア回路からなっている。同期アグリゲータは、同期要求(Sync_req)及び終了状態を以下に従って集合するように構成されたハードウェア回路からなっている。
各チップ2に関連するそれぞれの同期ブロック95は、そのチップ2によって生成された同期要求(Sync_req)及びそのチップ2の終了状態を検出することができるように、それぞれのチップ2に接続され、同期肯定応答(Sync_ack)及びグローバル終了状態をそれぞれのチップ2に送信することができる。各チップ2に関連するそれぞれの同期ブロック95はまた、4本の同期ワイヤ96の束を含む外部同期インターフェースを介してチップ2のうちの少なくとも1つの他の同期ブロック95に接続されているが、その詳細は後述して説明する。これはチップ・ツー・チップ・リンク8の1つの部分であってもよい。異なるカード上のチップ2間リンクの場合、インターフェース8は、例えば、PCIインターフェースからなっていてもよく、4つの同期ワイヤ96は、PCIインターフェースの4本のワイヤを再使用することによって実装することができる。チップの同期ブロック95のいくつかは、2つの隣接するチップ2の同期ブロック95に接続され、各接続は4本の同期ワイヤ96のそれぞれのインスタンスを介してなされる。このようにして、チップ2は、それらの同期ブロック95を介して1つ以上のデイジーチェーンに接続することができる。これにより、同期要求、同期肯定応答、終了状態の集合実行、及びグローバル終了状態がチェーンの上下に伝搬されることが可能になる。
動作中、各同期群91、92について、その群内のチップ2の1つに関連する同期ブロック95が、同期及び終了状態集合目的のためのマスターとして設定され、群内の残りは、この目的のためにスレーブとなる。各スレーブ同期ブロック95は、各同期群91、92(すなわち、マスターに向かう方向)の同期要求、同期肯定応答及び終了状態を伝搬する必要がある方向(例えば、左又は右)で構成される。実施形態では、これらの設定は、ソフトウェアによって構成可能であり、例えば、初期構成段階では、システムの後続動作を通して構成が設定されたままである。例えば、これはホストプロセッサによって構成してもよい。あるいは、構成がハードワイヤードである可能性は排除されない。いずれにしても、異なる同期群91、92は異なるマスターを有することができ、一般に、所与のチップ2(もっと厳密に言うと、その同期ブロック95)が、所与のチップ2が1つの群のマスターであり、それがメンバーである別の群のマスターではなく、あるいは、複数の群のマスターになることができる。
例えば、実例として、図16のシナリオの例を考察する。チップ2IVの同期ブロック95が、所定の同期群91Aのマスターとして設定されている実施例とする。同期ブロック95及びワイヤ96を介して最終的にチップ2IVに接続されたチップ2のチェーン内における第1のチップ2Iを考察する。第1のチップ2I上における現行の計算段階の全てのワーカースレッドがEXIT命令を実行し、全ての(参加している)タイル4上のスーパーバイザが全て同期群91Aを指定するSYNC命令を実行した場合、第1のチップ2Iは同期準備信号をその各関連の同期ブロック95へ送る。チップ2Iはまた、そのチップレベルの集合された終了状態(各チップ2I上における全ての相伴タイル上で終了中の全てワーカーの集合体)をその各同期ブロック95に出力する。それに応答して、第1のチップ2Iの同期ブロック95は、チェーン内において次のチップ2IIの同期ブロック95に同期要求(Sync_req)を伝搬する。また、第1のチップ2Iの終了状態をこの次のチップ2IIの同期ブロック95に伝搬する。この第2のチップ2IIの同期ブロック95は、それ自身の(参加している)タイル4のスーパーバイザが全て、同期群91Aを指定するSYNC命令を実行して、第2のチップ2IIに同期準備を知らせるまで待機する。その時初めて、第2のチップの同期ブロック95は、チェーン内における次の(第3の)チップ2IIIの同期ブロック95に同期要求を伝搬させ、また、第1のチップ2Iの終了状態の実行集合を第2のチップ2IIのものとともに伝搬する。第2のチップ2IIが第1のチップ2Iの前に同期準備完了となった場合、第2のチップ2IIの同期ブロック95は、第3のチップ2IIIの同期ブロック95に同期要求を伝搬する前に、第1のチップ2Iが同期要求の信号を送るのを待つ。第3のチップ2IIIの同期ブロック95も同様に動作し、今度は第2のチップ2IIからの実行中の集合された終了状態を集合して、次に移るための次の集合体を取得する等々である。これは、マスター同期ブロック、この実施例では、チップ2IVのマスター同期ブロックに向かって継続する。
次に、マスターの同期ブロック95は、受信した実行中の集合体及びそれ自身のチップ2IVの終了状態に基づいて、全ての終了状態のグローバル集合体を特定する。このグローバル集合体は、チェーンに沿って全てのチップ2に、同期肯定応答(Sync_ack)とともに戻される。
上記の実施例のように一方の端にあるのとは対照的に、マスターがチェーンに沿って途中に存在する場合、同期状態情報及び終了状態情報は、マスターのどちらかの側で、マスターに向かって両側で反対方向に伝搬する。この場合、マスターは、両側からの同期要求が受信された時点でのみ、同期肯定応答及びグローバル終了状態を発行する。例えば、チップ2IIIが群92のマスターである場合を考察する。さらに、実施形態では、チップ2のいくつかの同期ブロック95は、3つ以上の他のチップ2の同期ブロックに接続することができ、従って、マスターに向かってチェーンの複数のブランチを創出する。各チェーンは上記のように動作し、マスターは、全てのチェーンからの同期要求が受信された後にのみ、同期肯定応答及びグローバル終了状態を発行する。そして/又は、チップ2のうちの1つ又は複数は、ホストプロセッサ、ネットワークカード、記憶装置又はFPGAのような外部リソースに接続することも考えられる。
実施形態では、同期及び終了状態情報のシグナリングは、以下のように実施される。各対のチップ2間の4本の同期ワイヤ96の束は、2対のワイヤ、第1の対96_0及び第2の対96_1からなっている。各対は、同期要求ワイヤのインスタンスと同期肯定応答ワイヤのインスタンスとを含む。値0の実行中の集合された終了状態を通知するために、送信チップ2の同期ブロック95は、同期要求(Sync_req)を送るときに第1のワイヤ対96_0の同期要求ワイヤを使用し、あるいは、値1の実行中の集合体を通知するために、同期ブロック95は、同期要求を送るときに第2のワイヤ対96_1の同期要求ワイヤを使用する。値0のグローバルに集合された終了状態を通知するために、送信チップ2の同期ブロック95は、同期肯定応答(Sync_ack)を通知するときに第1のワイヤ対96_0の同期肯定応答ワイヤを使用し、あるいは、値1のグローバル集合体を通知するために、同期ブロック95は、同期肯定応答(Sync_ack)を通知するときに第2のワイヤ対96_1の同期要求ワイヤを使用する。
上記は、同期状態と終了状態情報を伝搬するメカニズムに過ぎないことに留意されたい。実際のデータ(コンテンツ)は、例えば、図16を参照して後述するように、別のチャネルによって送信される。さらに、これは一実施例に過ぎず、本明細書に開示されたその機能性の仕様が与えられれば、当業者は、開示された同期及び集合機能性を実現するための他の回路を構築できることが理解されよう。例えば、同期ロジック(図18の95)は、代わりに専用配線の代替として相互接続34、72を介して搬送されるパケットを使用することができるであろう。例えば、Sync_req及び/又はSync_ackは、それぞれ、1つ又は複数のパケットの形態で送信することができるであろう。
異なる可能なモードでのSYNC命令の機能性を以下に要約する。
SYNCタイル(ローカル、オンタイルバリア同期を実行)
・スーパーバイザランモードは、実行中からワーカーの終了を待機中に移行する。
・全てのワーカースレッドが非アクティブになるまで、スーパーバイザスレッドに対して命令発行を中断する。
・全てのワーカースレッドが非アクティブである場合、集合されたワーカーの終了状態は、ローカルコンセンサスレジスタ($LC)38を介して利用可能となる。
SYNCチップ(内部のオンチップバリア同期を実行)
・スーパーバイザランモードは、実行中からワーカーの終了を待機中に移行する。
・全てのワーカースレッドが非アクティブになるまで、スーパーバイザスレッドに対して命令発行を中断する。
・全てのワーカースレッドが非アクティブの場合:
− 集合されたローカルワーカーの終了状態は、ローカルコンセンサスレジスタ($LC)38を介して利用可能となる。
− 内部同期参加が交換ファブリック34に通知される
− スーパーバイザは、タイル4が交換ファブリック34からの内部同期肯定応答を受信するまで、非アクティブのままである。
− システム全体の終了ステータスは、グローバルコンセンサスレジスタ($GC)42で更新される。
SYNC zone_n(ゾーンn間で外部バリア同期を実行)
・スーパーバイザ実行モードは、実行中からワーカーの終了を待機中に移行する。
・全てのワーカースレッドが非アクティブになるまで、スーパーバイザスレッドに対する命令発行を中断する。
・全てのワーカースレッドが非アクティブの場合:
− 集合されたローカルワーカーの終了状態は、ローカルコンセンサスレジスタ($LC)38を介して利用可能となる。
− 外部同期参加は外部システム、例えば、上述の外部相互接続72における同期ロジックに通知される。
− スーパーバイザは、タイル4が外部システム72からの外部同期肯定応答を受信するまで、中断されたままである
システム全体の終了ステータスは、グローバルコンセンサスレジスタ($GC)42で更新される。
前述したように、すべてのタイル4が必然的に同期に参加する必要はない。説明した実施形態では、参加するタイル群は、同期命令のモードオペランドによって設定することができる。しかし、これはあらかじめ定義されたタイル群の選択のみを可能にする。本明細書では、タイル単位で同期参加を選択できることが望ましいことも認識されている。従って、実施形態では、どの個々のタイル4がバリア同期に参加するかを選択するための代替的又は追加の機構が提供される。
特に、これは、SYNC命令の代わりに1つ又はいくつかのタイル4によって実行されるプロセッサ命令セット内で追加タイプの命令を提供することによって達成される。この命令は、「不参加(abstain)」命令、又は「SANS」命令(自動非参加同期開始(start automatic non-participatory sync))と呼ばれる。実施形態では、SANSはスーパーバイザスレッドが使用するために確保されている。実施形態では、SANSは単一の即値オペランドを取る。すなわち、SANS n_barriers。
SANS命令の挙動は、それが実行されるタイルを現行のバリア同期に参加させないものであるが、指定された同期群内のすべてのタイルがSYNCになるまで待機している他のタイルを保持する(holding up)ことはない。実際には、「私なしで続行せよ」と命令する。SANS命令が実行されると、SANS命令のオペコードは、実行ステージ18における実行ユニット内のロジックをトリガして、同期要求信号(Sync_req)のインスタンスを内部及び/又は外部同期コントローラ36、76(モードに応じて)に送信する。実施形態では、SANSによって生成された同期要求は、SANSを実行したタイル4を包含する任意の同期群91、92に、すなわち、このローカルチップ内のタイル4が次に使用しているどの同期群(それらは同期群で一致しなければならないが)に対しても適用され、SANSを実行したものからのSync_reqは常に有効である。
従って、同期コントローラロジック36、76及び同期群内の他のタイル4の観点からすれば、SANS命令を実行するタイル4は、SYNC命令を実行するタイル4とまったく同じように現れ、同期バリア及び同期ロジック36、76からの同期肯定応答信号(Sync_ack)の送信を保持することはない。すなわち、SYNCの代わりにSANSを実行するタイル4は、当該タイルがさもなければメンバーである任意な同期群に関与するいかなる他のタイル4も保持又は停止させることはない。SANSによって実行されるハンドシェイクは、すべての同期群91、92に対して有効である。
しかし、SYNC命令とは異なり、SANS命令は、同期ロジック36、76からの同期肯定応答信号(Sync_ack)を待機するようにスーパーバイザ命令の発行を一時停止させることはない。代わりに、個別のタイルは、SYNC命令を実行した他のタイル4間で行われている現行のバリア同期によって阻害されずに継続することができる。このように、同期を模倣するが待機しないことにより、SANS命令は、そのタイル4が1つ又は複数のタスク処理を続行しながら、一方で他のタイル4は依然として同期することを可能にする。
オペランドn_barriersは、「ポステッド(posted)」同期の数、すなわち、タイルが参加しないであろう将来の同期点(バリア)の数を指定する。代替的に他の実施形態では、SANS命令がこのオペランドを取り込まず、代わりに、SANS命令の各実行が1度限りの不参加のみを引き起こすことは除外されない。
SANS命令によって、特定のタイル4は、BSP動作スケジュールの直接範囲外のタスクを実行する役割を果たしてもよい。例えば、タイル4の大部分が一次計算タスク(複数可)で占有されている間に、ホストメモリへの及び/又はホストメモリからのデータ転送を開始(及び処理)するために、チップ2内に少数のタイル4を割り当てることが望ましい場合がある。このようなシナリオでは、一次計算に直接関与していないタイル4は、自動的な非参加同期機能(SANS)を使用して、一定の時間帯、同期メカニズムから効果的に切断されると宣言することができる。この特徴を使用する場合、タイル4は、積極的に(すなわちSYNC命令の実行を介して)同期準備ができていることを知らせる必要はなく(同期ゾーンのいずれかに対しても)、実施形態では集合された終了ステータスにいかなる寄与もさせない。
SANS命令は、それが実行されるタイル4がタイル間同期(又は、それらが同期にも関与する場合は、他の外部リソースとの同期)に積極的に関与しないようにする期間を開始又は延長する。この期間中、このタイル4は、すべてのゾーン内で、同期の準備ができたことを自動的に知らせ、また、実施形態では、グローバル集合コンセンサス$GCに全く寄与させない。この期間は、このタイル4によって自動的にいくつの将来の同期点が通知されるかを示す符号なし即値オペランド(n_barriers)として表すことができる。SANSの実行時に、オペランドで指定された値n_barriersは、それぞれのタイル4のカウントダウンレジスタ$ANS_DCOUNTに記憶される。これは、今後追加されるSync_reqの数を追跡するために使用されるアーキテクチャ状態である。自動非参加型同期メカニズムが現在非アクティブである場合、準備の最初のアサーション(同期要求、Sync_req)が直ちに実行される。その後のアサーション(assertion)は、前の同期が完了すると(すなわち、同期確認のアサート、Sync_ack)、バックグラウンドで行われる。自動非参加同期機構が現在アクティブな場合、カウントダウン・カウンタ・レジスタ$ANS_DCOUNTは自動的に更新され、同期肯定応答信号が未確認のまま残らないようになる。自動非参加型同期機構は、専用のハードウェアロジック、好ましくは各タイル4内のそのインスタンスに実装されるが、他の実施形態では、タイル群又は全タイルに対して中央で実装される可能性があることは排除されない。
終了状態の挙動に関しては、実際には実装に応じていくつかの可能性がある。実施形態では、グローバルに集合された終了状態を得るために、同期ロジック36、76は、SYNC命令を実行した特定の同期群内のそれらのタイル4からローカル終了状態のみを集合するが、SANS命令を実行したそれら(不参加のタイル又は複数のタイル)からは集合しない。その代わりに、グローバルに集合された終了状態は、SYNCを実行した同期群内のすべてのタイル4及びSANSを実行したそれらのもの(参加しているタイルと不参加のタイル4の両方)からローカル終了状態を集合することによって得られる。後者の場合、グローバルアグリゲーションのための不参加タイル4によって出力されたローカル終了状態は、SYNC命令と同様に(ローカルコンセンサスレジスタ$LC38の説明を参照)、SANS実行時におけるそのタイルのワーカーの実際にローカルに集合された終了状態であってもよい。あるいは、不参加タイル4によって出力されたローカル「終了状態」は、終了状態がバイナリである実施形態では、デフォルト値、例えば真値(例えば、論理1)であってもよい。これにより、あらゆる偽ローカル終了状態がグローバル終了状態を偽にする実施形態では、不参加タイル4がグローバル終了状態を妨げることが阻止される。
グローバル終了状態の復帰に関しては、残っているタイルがグローバル集合体を生成するためのローカル終了状態を提出するかどうかにかかわらず、そして、その値が実際の値であったか、デフォルト値であったかにかかわらず、これには2つの可能性が存在する。すなわち、1つの実施形態では、相互接続34、72内の同期ロジック36、76によって生成されたグローバル集合終了状態は、SYNC命令を実行した参加しているタイル4のグローバルコンセンサスレジスタ$GC42にのみ記憶され、代わりにSANS命令を実行した不参加のタイル4のレジスタには記憶されない。実施形態では、それどころかデフォルト値が、SANSを実行したタイル4(複数可)のグローバルコンセンサスレジスタ$GX42に記憶される(不参加のタイルに)。例えば、このデフォルト値は真であり得るもので、例えばバイナリグローバル終了状態の場合には、論理1である。しかし、別の実施形態では、同期ロジック36、76によって生成された実際のグローバル集合体は、SYNC命令を実行した参加タイル4と、代わりにSANS命令を実行した不参加タイル4の両方のグローバルコンセンサスレジスタ$GC42に記憶される。従って、群内のすべてのタイルは、引き続きグローバルに集合された終了状態にアクセスできる。
図15は、本明細書で開示されるプロセッサアーキテクチャの応用例、すなわち機械知能への適用例を示す。
機械知能の分野の当業者にはよく知られているように、機械知能は、機械知能アルゴリズムが知識モデルを学習する学習段階から始まる。このモデルは、相互接続されたノード(すなわち頂点)102とエッジ(すなわち、リンク)104のグラフからなっている。グラフ内の各ノード102は、1つ又は複数の入力エッジ及び1つ又は複数の出力エッジを有する。ノード102のいくつかの入力エッジのいくつかは、ノードのいくつかの他の出力エッジであり、それにより、ノードを一緒に接続してグラフを形成する。さらに、1つ又は複数のノード102の1つ又は複数の入力エッジが全体としてグラフへの入力を形成し、1つ又は複数のノード102の出力エッジの1つ又は複数が全体としてグラフの出力を形成する。時には、所与のノードが、グラフへの入力、グラフからの出力、及び他のノードへの接続など、これらの全てを有している場合もある。各エッジ104は、値又はより頻繁にテンソル(n次元行列)を伝達し、これらは入力エッジ及び出力エッジでノード102に且つノードから提供される入力及び出力をそれぞれ形成する。
各ノード102は、その1つ又は複数の入力エッジで受信されたその1つ又は複数の入力の関数を表し、この関数の結果は1つ又は複数の出力エッジに提供される出力である。各関数は、1つ又は複数の個別のパラメータ(必ずしも乗算型重みである必要はないが、時には重みとも呼ばれる)によってパラメータ化される。一般に、異なるノード102によって表される関数は、異なる形態の関数であってもよく、及び/又は異なるパラメータによってパラメータ化されてもよい。
さらに、各ノード関数の1以上のパラメータの各々は、それぞれのエラー値によって特徴付けられる。さらに、それぞれの条件は、各ノード102のパラメータ内のエラーに関連付けされてもよい。単一のパラメータによってパラメータ化された関数を表すノード102については、条件は単純な閾値であってもよく、すなわち、エラーが指定された閾値内にある場合に条件が満たされるが、エラーが閾値を超えている場合には満たされない。2つ以上の個別のパラメータによってパラメータ化されたノード102については、許容可能なエラーレベルに達したそのノード102に対する条件がより複雑であり得る。例えば、条件は、そのノード102の各パラメータがそれぞれの閾値内にある場合にのみ満たすことができる。別の実施例として、結合されたメトリックは、同じノード102に対する異なるパラメータにおけるエラーを組み合わせて定義され、結合されたメトリックの値が指定された閾値内にあるという条件で満たすことができるが、さもなければ、結合されたメトリックの値が閾値を超えている場合(メトリックの定義に応じてその逆も可)、条件は満足されない。条件が何であっても、これは、ノードのパラメータにおけるエラーが一定のレベル又は受容度以下になるかどうかの尺度を与える。一般に、任意の適切なメトリックを使用してもよい。条件又はメトリックは、全てのノードについて同じであってもよく、ノードの各々について異なるものであってもよい。
学習段階では、アルゴリズムは経験データ、すなわちグラフへの入力の異なる可能な組み合わせを表す複数のデータポイントを受信する。より多くの経験データが受信されるにつれて、アルゴリズムは、経験データに基づいてグラフ内の様々なノード102のパラメータを徐々に調整して、パラメータのエラーを最小限に抑えるように試行する。目標は、グラフの出力が所与の入力に対する所望の出力に可能な限り近づくようにパラメータの値を探し出すことである。グラフ全体がこのような状態に向かうにつれて、グラフは収束すると言われる。適切な収束度の後に、グラフを使用して、予測又は推論を実行する、すなわち、いくつか所与の入力に対するアウトカムを予測するか、又はいくつか所与の出力についての原因を推測することができる。
学習段階は、さまざまな可能な形態をとることができる。例えば、教師付きアプローチでは、入力経験データはトレーニングデータ、すなわち既知の出力に対応する入力の形をとる。各データポイントで、アルゴリズムは、出力が与えられた入力の既知の出力にさらに近づくようにパラメータを調整することができる。その後の予測段階では、グラフを使用して、入力クエリーを近似予測出力に(又は推論する場合、その逆も可)マッピングすることができる。他のアプローチも可能である。例えば、教師なしのアプローチでは、入力データごとに参照アウトカムの概念がなく、代わりに機械知能アルゴリズムが出力データ内で独自の構造を識別するために残される。あるいは、補強アプローチでは、アルゴリズムは、入力経験データ内の各データポイントに対して少なくとも1つの可能な出力を試行し、この出力が正か負か(そして、潜在的にそれが正又は負である可能性の度合い)、例えば、勝ち負け、報酬又は罰、又はそのようなものを通知される。多くの試行を経て、アルゴリズムは、ポジティブなアウトカムをもたらすであろう入力を予測し得るように、グラフのパラメータを徐々に調整することができる。グラフを学習するための様々なアプローチ及びアルゴリズムは、多分、機械学習の当業者には周知であると思われる。
本明細書に開示された技術の例示的な適用によれば、各ワーカースレッドは、機械知能グラフにおいてノード102のそれぞれ個別の1つに関連付けられた計算を実行するようにプログラムされる。この場合、ノード102間のエッジ104の少なくとも一部は、スレッド間のデータの交換に対応し、一部は、タイル間の交換を伴い得る。さらに、ワーカースレッドの個別の終了状態は、個別のノード102がそのノードのパラメータの収束のために個別の条件を満たしているかどうか、すなわち、エラー空間内の許容可能なレベル又は領域内に収まる1つのパラメータ又は複数のパラメータにエラーを有しているかどうかを表すためにプログラマによって使用される。例えば、これは、個々の終了状態の各々が個々のビットであり、集合された終了状態が個々の終了状態のAND(又は0が正であるとみなされる場合には同等にOR)の場合、あるいは、個々の終了状態がすべて真であるか、偽又はミックスであるかを表す三値である場合の実施形態の一使用例である。従って、終了状態レジスタ38内の単一のレジスタ値を調べることによって、プログラムはグラフ全体又は少なくともグラフのサブ領域が許容可能な程度に収束したかどうかを特定することができる。
これの別の変形として、集合体が個々の信頼値の統計的集合体の形態をとる実施形態を使用することができる。この場合、各個々の終了状態は、それぞれのスレッドによって表されるノードのパラメータが許容エラーに達したという確信度(例えば、百分率のように)を表す。次いで、集合された終了状態を使用して、グラフ又はグラフのサブ領域が許容可能な程度に収束したかどうかに関する全体的な信頼度を特定することができる。
マルチタイル配列6の場合、各タイルはグラフのサブグラフを実行する。各サブグラフは、1つ以上のスーパーバイザスレッドからなるスーパーバイザサブプログラムと、ワーカーのいくつか又は全てがコードレットの形態をとるワーカースレッドのセットとを含む。
そのような適用、又は実際には、グラフ内の各ノードを表すために各ワーカースレッドが使用されるグラフベースの適用では、各ワーカーに含まれる「コードレット」は、持続状態及び1つの頂点の入力及び/出力で動作するソフトウェア手順として定義することができ、ここでコードレットは:
・1つのワーカースレッドレジスタコンテキストで起動され、「実行(run)」命令を遂行するスーパーバイザスレッドによって1つのバレルスロットで実行され、
・他のコードレット又はスーパーバイザとの通信なしで完了し(コードレットが終了したときのスーパーバイザへの返信を除く)、
・「実行」命令によって提供されるメモリポインタを介して、頂点の持続状態と、そのバレルスロットに固有なメモリ内の非持続的な作業領域とにアクセスし、そして、
・その最後の命令として「EXIT」を実行すると、使用していたバレルスロットがスーパーバイザに返され、終了命令で指定された終了状態がスーパーバイザで可視なタイルのローカル終了状態に集合される。
グラフ(又はサブグラフ)を更新するとは、エッジによって定義される因果関係と一致する順序で、各構成要素の頂点を一度更新することを意味する。頂点を更新するとは、頂点状態でコードレットを実行することを意味する。コードレットは、頂点の更新手順であって、通常、1つのコードレットは多くの頂点に関連付けられている。スーパーバイザは頂点ごとに1つのRUN命令を実行する。そのような各命令は頂点状態アドレス及びコードレットアドレスを指定する。
上記の実施形態はほんの一例として記載されていることが理解されよう。
例えば、終了状態集合機構の適用可能性は、スーパーバイザスレッドに対して別個のコンテキストが提供されているか、スーパーバイザスレッドがスロット内で動作してからそのスロットをワーカーに放棄する上述のアーキテクチャに限定されない。例えば、別の構成では、スーパーバイザはそれ自身の専用スロット内で動作してもよい。
さらに、「スーパーバイザ」及び「ワーカー」という用語は、明示的に記載されている特定の責任を意味するものではなく、特に、スーパーバイザスレッドがワーカーにタイムスロットを放棄する上述のスキームに必ずしも限定されるなどするものではない。一般に、ワーカースレッドは、何らかの計算タスクが割り当てられているスレッドを参照することがある。スーパーバイザは、1つ以上のスレッドのアウトカムに応じて、ワーカースロットにワーカーを割り当て、及び/又は複数のスレッド間でバリア同期を実行し、及び/又は依存する任意の制御フロー操作(分岐など)を実行することなど、動作に対して責任を負うスレッドを管理又は調整するようなものを表してもよい。
インターリーブされたタイムスロット等のシーケンスを参照する場合、これは必ずしも参照されるシーケンスが全ての可能なスロット又は利用可能なスロットを構成することを意味するものではない。例えば、当該シーケンスは、全ての可能なスロット又は現在アクティブなスロットのみであってもよい。スケジュールされたシーケンスに現在含まれていない他の潜在的なスロットが存在する可能性が必ずしも排除される訳ではない。
本明細書で使用するタイルという用語は、必ずしも特定の形態(topography)などに限定されるものではなく、一般には、同様のモジュールの配列に、典型的には少なくともそのうちのいくつかは同じチップ(すなわち、同じダイ)上にある処理ユニット10及び対応するメモリ11を含む任意の処理リソースのモジュラーユニットを指してもよい。
さらに、本開示の範囲は、時間決定性内部相互接続又は非時間決定性外部相互接続に限定されない。本明細書で開示される同期及び集合メカニズムは、完全に時間決定論性な構成、又は完全に非時間決定論性な構成で使用することもできる。
さらに、本明細書において、タイル群又は複数のタイルなどの間で同期又は集合を行うことについて言及される場合、これは、明示的に記載しない限り、チップ上の全てのタイル又はシステム内の全てのタイルを必ずしも指す必要はない。例えば、SYNC及びEXIT命令は、所与のチップ上のタイル4の特定のサブセット及び/又は所与のシステム内のチップ2のサブセットに関してのみ同期及び集合を実行するように設定することができる一方、所与のチップ上のいくつかの他のタイル4、及び/又は所与のシステム内のいくつかの他のチップは、所与のBSP群に参加しなくてもよく、手元の群によって実行されている計算とは無関係ないくつかの完全に別個のタスクセットにも使用される可能性がある。
また、SYNC命令の特定のモードについて説明したが、本開示の範囲は、より一般的には、そのようなモードに限定されない。例えば、上述したモードのリストは必ずしも網羅的ではない。すなわち、他の実施形態では、SYNC命令はより少ないモードを有していてもよく、例えば、SYNCが外部同期の異なる階層レベルをサポートする必要はなく、あるいは、オンチップ同期とチップ間同期を区別する必要はない(すなわち、タイル間モードでは、オンチップであるかオフチップであるかにかかわらず常に全てのタイルに関連して動作する)。さらに別の実施形態では、SYNC命令は、オペランドのようなモードを全くとる必要はない。例えば、実施形態では、同期及び終了状態集合体の異なるレベルのために、SYNC命令の異なるバージョン(異なるオペコード)を提供することができる(オンタイル同期及びタイル間、オンチップ同期のための異なるSYNC命令のような)。あるいは、他の実施形態では、専用のSYNC命令は、タイル間同期のためにのみ提供されてもよい(必要に応じて、汎用ソフトウェアで実行されるスレッド間のタイル間同期を残して)。
さらに、同期ゾーンは、階層的(すなわち、互いに入れ子にされたもの)に限定されず、他の実施形態では、選択可能な同期ゾーンは、1つ又は複数の非階層群で構成され又は含んでいてもよい(その群のすべてのタイルは、単一で他の選択可能な群の中に入れ子になっていない)。
さらに、上述の同期方式は、実施形態において、マルチタイルプロセッサ以外の外部リソースの参加を排除するものではなく、例えば、ホストプロセッサなどのCPUプロセッサ、又は1つ又は複数のネットワークカード、ストレージデバイス、及び/又はFPGAなどのプロセッサではない1つ又は複数のコンポーネントであってもよい。例えば、いくつかのタイルは、これらの転送がそのタイルの計算負担を形成する外部システムとのデータ転送に従事することを選択することができる。この場合、転送は次のバリアの前に完了する必要がある。場合によっては、タイルの終了状態は、外部リソースとの通信結果に依存してもよく、このリソースは、代理的に終了状態に影響を及ぼしてもよい。代替的に又は追加的に、マルチタイルプロセッサ以外のリソース、例えば、ホスト又は1つ以上のFPGAを同期ネットワーク自身に組み込むこともあり得る。すなわち、バリア同期が満たされ、タイルが次の交換段階に進むためには、この/これらの追加リソースからSync_reqなどの同期信号が必要となる。さらに、実施形態では、集合されたグローバル終了状態は集合体に、例えば、FPGAから外部リソースの終了状態を含み得る。
開示された技術の他の応用及び変形は、本明細書の開示が与えられると当業者には明らかになるであろう。本開示の範囲は、記載された実施形態によって制限されるのではなく、添付の特許請求の範囲によってのみ限定される。

Claims (23)

  1. タイルの配列及び前記タイル間の通信のための相互接続を備える処理システムであって、
    各タイルは、機械コード命令を実行するための実行ユニットを備え、それぞれが前記プロセッサの命令セットにおける命令タイプの定義済みセットのインスタンスであり、前記命令セット内の各命令タイプは、対応するオペコードと、0個以上のオペランドを取り込むための0個以上のオペランドフィールドとによって定義され、
    前記相互接続は、バルク同期並列方式に従って前記タイルの一部又はすべての群間の通信を行うように動作可能であり、
    前記群内の前記タイルそれぞれは、オンタイルの計算段階とそれに続くタイル間交換段階を実行するとともに、前記群内のすべての前記タイルが前記計算段階を完了するまで前記交換段階が制止され、前記群内の各タイルは、前記計算段階の完了時にローカル終了状態を有しており、
    前記命令セットは、その計算段階の完了時に前記群内の各タイルによる実行のための同期命令を含み、前記同期命令の実行は、前記実行ユニットに同期要求を前記相互接続内のハードウェアロジックに送信させ、
    前記相互接続内の前記ロジックは、前記ローカル終了状態をグローバル終了状態に集合させるように構成され、前記群内のすべての前記タイルからの前記同期要求を受信することによって示されるように、前記群内のすべての前記タイルによる前記計算段階の完了に応答して、前記群内の前記タイルの各々上のグローバル終了状態レジスタに前記グローバル終了状態を記憶し、それにより、前記群内の前記タイルの各々上で実行されているコードの一部によって前記グローバル終了状態をアクセス可能にする処理システム。
  2. 各タイル上の前記実行ユニットは、前記同期命令の実行に応答して命令発行を一時停止するように構成され、前記相互接続グループ内の前記ロジックは、前記群内のすべての前記タイルから前記同期要求を受信することに応答して、前記命令発行を再開するために前記群内の前記タイルの各々に同期肯定応答信号を返送するように構成されている、請求項1に記載の処理システム。
  3. 前記ローカル終了状態及び前記グローバル終了状態の各々は、単一ビットである、請求項1又は2に記載の処理システム。
  4. 前記集合体は、前記ローカル終了状態のブールAND、又は前記ローカル終了状態のブールORからなる、請求項3に記載の処理システム。
  5. 前記集合された終了状態は、前記ローカル終了状態がすべて真であるか、すべて偽であるか、又は混合されているかを示す、3値を表す少なくとも2ビットからなる、請求項1又は2に記載の処理システム。
  6. 前記タイル群の各々は、前記タイルの前記ローカル終了状態を表すように配列されたローカル終了状態レジスタを備える、請求項1〜5のいずれか1項に記載の処理システム。
  7. 前記群内の各タイルは、
    複数のコンテキストレジスタセットであって、各々が複数のスレッドのうちの個別の1つのプログラム状態を記憶するように配列された各コンテキストレジスタセットと、
    インターリーブされたタイムスロットの反復シーケンスにおいて、複数のタイムスロットの各々で複数のワーカースレッドの個別の1つの実行をスケジュールするように配列されたスケジューラであって、前記ワーカースレッドの各々の前記プログラム状態が前記コンテキストレジスタセットの個別の1つに記憶されるスケジューラと、を備え、
    前記バルク同期並列方式に従って、前記群内のすべての前記タイル上で全ての前記ワーカースレッドが前記計算段階を完了するまで前記交換段階は制止され、
    各タイル上の前記ローカル終了状態は、前記タイル上の前記ワーカースレッドの各々によって出力された個々の終了状態の集合体であり、
    前記コードの一部は、前記タイル上の複数のスレッドの少なくとも1つを含む、請求項1〜6のいずれか1項に記載の処理システム。
  8. 前記群内の各タイルは、前記ローカル終了状態への前記個々の終了状態の前記集合体を実行するように構成されたハードウェアロジックを含む、請求項7に記載の処理システム。
  9. 前記命令セットは、前記ワーカースレッドの各々に含めるための終了命令を含み、前記実行ユニットは、個別の前記ワーカースレッドの個々の前記終了状態を出力し、前記終了命令の前記オペコードに応答して個別の前記ワーカースレッドを終了させるように構成されている、請求項8に記載の処理システム。
  10. 個々の前記終了状態及び前記ローカル終了状態の各々は単一ビットであり、個々の前記終了状態の前記集合体は、個々の前記終了状態のブールAND又は個々の前記終了状態のブールORである、請求項7〜9のいずれか1項に記載の処理システム。
  11. 前記ローカル終了状態は、個々の前記終了状態がすべて真であるか、すべて偽であるか、又は混合されているかを示す3値を表す少なくとも2ビットを含む、請求項7〜9のいずれか1項に記載の処理システム。
  12. 前記交換段階は、前記ワーカースレッドとは別個のスーパーバイザスレッドによって実行されるように配列され、前記少なくとも1つのスレッドは、前記スーパーバイザスレッドを含む、請求項7〜11のいずれか1項に記載の処理システム。
  13. 前記命令発行の前記一時停止は、前記同期肯定応答を保留している前記スーパーバイザスレッドからの命令の発行を少なくとも一時停止することを含む、請求項2に従属するときの請求項12に記載の処理システム。
  14. 各タイル上の前記コンテキストレジスタセットは、前記複数のワーカースレッドの個別の1つの前記プログラム状態を表すように配列された複数のワーカーコンテキストレジスタセットと、前記スーパーバイザスレッドのプログラム状態を表すように配列されたレジスタの追加セットからなる追加スーパーバイザコンテキストレジスタセットとを備える、請求項12又は13に記載の処理システム。
  15. 前記スーパーバイザスレッドは、前記タイムスロットの各々において実行することによって開始するように配置され、
    前記命令セットは、放棄命令をさらに含み、前記実行ユニットは、前記放棄命令の前記オペコードに応答して、前記放棄命令が実行された前記タイムスロットを個別の前記ワーカースレッドに放棄するように構成され、そして、
    前記終了命令は、前記終了命令が実行された個別の前記タイムスロットを前記スーパーバイザスレッドに戻して、前記スーパーバイザスレッドが個別の前記スロットで実行を再開する、請求項14に記載の処理システム。
  16. 前記コードでプログラムされたシステムであり、前記コードの一部は、有効となった前記グローバル終了状態を使用して、前記グローバル終了状態に依存する分岐判定を実行するように構成され、請求項1〜15のいずれか1項に記載の処理システム。
  17. グラフの各ノードが1つ以上の個別の入力エッジと1つ以上の個別の出力エッジとを有するとともに、前記ノードのうちの少なくともいくつかの前記入力エッジは、前記ノードのうちの少なくともいくつかの前記出力エッジである機械知能アルゴリズムを実行するようにプログラムされており、各ノードは、その出力エッジをその入力エッジに関連付ける個別の関数からなるとともに、各個別の関数は1つ以上の個別のパラメータによってパラメータ化され、個別の前記パラメータの各々は関連付けられたエラーを有していて、前記グラフの一部又はすべてのエラーが小さくなるにつれて前記グラフは解に向かって収束するようになっており、
    前記タイルの各々は、前記グラフ内の前記ノードのサブセットを含む個別のサブグラフをモデル化し、前記ローカル終了状態の各々は、個別の前記サブグラフ内の前記ノードの1つ以上の前記パラメータにおける前記エラーが所定状態を満たすかどうかを示すために使用される、請求項1〜16のいずれか1項に記載の処理システム。
  18. 前記群は、前記同期命令のオペランドによって少なくとも部分的に選択される、請求項1〜17のいずれか1項に記載の処理システム。
  19. 前記同期命令の前記オペランドは、同じ前記チップ上のタイルのみを含むか、又は前記群内の異なるチップ上のタイルを含むかを選択する、請求項18に記載の処理システム。
  20. 前記同期命令の前記オペランドは、グルーピングの異なる階層レベルの中から前記群を選択する、請求項18又は19に記載の処理システム。
  21. 前記命令セットは不参加命令をさらに含み、前記不参加命令が実行されたタイルを前記群から脱退させる、請求項1〜20のいずれか1項に記載の処理システム。
  22. タイルの配列と前記タイル間の通信のための相互接続とを含む処理システムを動作させる方法であって、各タイルは、機械コード命令を実行するための実行ユニットを含み、それぞれの命令が前記プロセッサの命令セットにおける命令タイプの所定セットのインスタンスであり、前記命令セット内の各命令タイプは、対応するオペコードと、0個以上のオペランドを取り込むための0個以上のオペランドフィールドとによって定義され、前記方法は、
    バルク同期並列方式に従って、前記相互接続を介して前記タイルの一部又はすべての群間で通信を行うことを含み、
    前記群内で前記タイルの各々は、オンタイル計算段階を実行した後にタイル間交換段階を実行するとともに、前記群内のすべての前記タイルが前記計算段階を完了するまで前記交換段階は制止され、前記群内の各タイルは、前記計算段階の完了時にローカル終了状態を有しており、
    前記命令セットは、その計算段階の完了時に前記群内の各タイルによる実行のための同期命令を含み、前記同期命令の実行は、前記実行ユニットに前記相互接続内のハードウェアロジックへ同期要求を送信させ、
    前記方法はさらに、前記群内のすべての前記タイルからの前記同期要求を受信することによって示されるように、前記群内のすべての前記タイルによる前記計算段階の完了に応答して、前記ローカル終了状態をグローバル終了状態に集合させ、前記群内の前記タイルの各々のグローバル終了状態レジスタに前記グローバル終了状態を記憶させるために前記相互接続内の前記ロジックをトリガし、前記群内の前記タイルの各々上で実行されているコードの一部によって前記グローバル終了状態をアクセス可能にすることを含む方法。
  23. コンピュータ可読媒体上に具現化され、且つ請求項1〜21のいずれか1項に記載の前記処理システム上で実行されるように構成されたコードを含むコンピュータプログラムであって、前記コードが、各部分に前記同期命令のインスタンスを含む前記群内の前記タイルの各々上で実行するための部分を含む、コンピュータプログラム製品。
JP2018197233A 2017-10-20 2018-10-19 マルチタイル処理配列における同期化 Active JP6797881B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1717291.7A GB2569269B (en) 2017-10-20 2017-10-20 Synchronization in a multi-tile processing arrangement
GB1717291.7 2017-10-20

Publications (3)

Publication Number Publication Date
JP2019079528A true JP2019079528A (ja) 2019-05-23
JP2019079528A5 JP2019079528A5 (ja) 2019-09-05
JP6797881B2 JP6797881B2 (ja) 2020-12-09

Family

ID=60481655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018197233A Active JP6797881B2 (ja) 2017-10-20 2018-10-19 マルチタイル処理配列における同期化

Country Status (10)

Country Link
US (2) US10564970B2 (ja)
JP (1) JP6797881B2 (ja)
KR (1) KR102262483B1 (ja)
CN (1) CN110214317B (ja)
CA (1) CA3021416C (ja)
DE (1) DE102018126004A1 (ja)
FR (1) FR3072800B1 (ja)
GB (1) GB2569269B (ja)
TW (1) TWI700634B (ja)
WO (1) WO2019076714A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020102185A (ja) * 2018-12-21 2020-07-02 グラフコアー リミテッドGraphcore Limited コンピュータのデータ交換
JP2022545222A (ja) * 2019-12-23 2022-10-26 グラフコアー リミテッド 複数のプロセッサを有するコンピュータにおける通信

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2569098B (en) * 2017-10-20 2020-01-08 Graphcore Ltd Combining states of multiple threads in a multi-threaded processor
US11995448B1 (en) 2018-02-08 2024-05-28 Marvell Asia Pte Ltd Method and apparatus for performing machine learning operations in parallel on machine learning hardware
DE102018205390A1 (de) * 2018-04-10 2019-10-10 Robert Bosch Gmbh Verfahren und Vorrichtung zur Fehlerbehandlung in einer Kommunikation zwischen verteilten Software Komponenten
DE102018205392A1 (de) * 2018-04-10 2019-10-10 Robert Bosch Gmbh Verfahren und Vorrichtung zur Fehlerbehandlung in einer Kommunikation zwischen verteilten Software Komponenten
US10929779B1 (en) * 2018-05-22 2021-02-23 Marvell Asia Pte, Ltd. Architecture to support synchronization between core and inference engine for machine learning
US10929778B1 (en) 2018-05-22 2021-02-23 Marvell Asia Pte, Ltd. Address interleaving for machine learning
US11016801B1 (en) 2018-05-22 2021-05-25 Marvell Asia Pte, Ltd. Architecture to support color scheme-based synchronization for machine learning
US10997510B1 (en) 2018-05-22 2021-05-04 Marvell Asia Pte, Ltd. Architecture to support tanh and sigmoid operations for inference acceleration in machine learning
GB2575294B8 (en) * 2018-07-04 2022-07-20 Graphcore Ltd Host Proxy On Gateway
CN112416053B (zh) * 2019-08-23 2023-11-17 北京希姆计算科技有限公司 多核架构的同步信号产生电路、芯片和同步方法及装置
GB2591106B (en) 2020-01-15 2022-02-23 Graphcore Ltd Control of data transfer between processors
GB2596872B (en) * 2020-07-10 2022-12-14 Graphcore Ltd Handling injected instructions in a processor
GB2597078B (en) 2020-07-14 2022-07-13 Graphcore Ltd Communication between host and accelerator over network

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114362A (ja) * 1988-10-24 1990-04-26 Nec Corp 並列演算装置
JP2001175618A (ja) * 1999-12-17 2001-06-29 Nec Eng Ltd 並列計算機システム
US20110078417A1 (en) * 2009-09-25 2011-03-31 Brian Fahs Cooperative thread array reduction and scan operations
JP2012064215A (ja) * 2010-09-20 2012-03-29 Internatl Business Mach Corp <Ibm> アシスト・ハードウエア・スレッドの拡張可能な状態追跡のための方法、情報処理システム、およびプロセッサ
US20160179162A1 (en) * 2014-12-22 2016-06-23 Intel Corporation Holistic global performance and power management

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8035650B2 (en) * 2006-07-25 2011-10-11 Qualcomm Incorporated Tiled cache for multiple software programs
US8046727B2 (en) * 2007-09-12 2011-10-25 Neal Solomon IP cores in reconfigurable three dimensional integrated circuits
US8866827B2 (en) 2008-06-26 2014-10-21 Microsoft Corporation Bulk-synchronous graphics processing unit programming
US9081501B2 (en) * 2010-01-08 2015-07-14 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
GB201001621D0 (en) * 2010-02-01 2010-03-17 Univ Catholique Louvain A tile-based processor architecture model for high efficiency embedded homogenous multicore platforms
US20120179896A1 (en) * 2011-01-10 2012-07-12 International Business Machines Corporation Method and apparatus for a hierarchical synchronization barrier in a multi-node system
KR101863177B1 (ko) 2012-01-20 2018-05-31 지이 비디오 컴프레션, 엘엘씨 병렬 처리, 전송 디멀티플렉서 및 비디오 비트스트림을 허용하는 코딩 개념
US10067768B2 (en) 2014-07-18 2018-09-04 Nvidia Corporation Execution of divergent threads using a convergence barrier
US9348658B1 (en) * 2014-12-12 2016-05-24 Intel Corporation Technologies for efficient synchronization barriers with work stealing support
US9747108B2 (en) 2015-03-27 2017-08-29 Intel Corporation User-level fork and join processors, methods, systems, and instructions
US10310861B2 (en) * 2017-04-01 2019-06-04 Intel Corporation Mechanism for scheduling threads on a multiprocessor
US10672175B2 (en) * 2017-04-17 2020-06-02 Intel Corporation Order independent asynchronous compute and streaming for graphics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02114362A (ja) * 1988-10-24 1990-04-26 Nec Corp 並列演算装置
JP2001175618A (ja) * 1999-12-17 2001-06-29 Nec Eng Ltd 並列計算機システム
US20110078417A1 (en) * 2009-09-25 2011-03-31 Brian Fahs Cooperative thread array reduction and scan operations
JP2012064215A (ja) * 2010-09-20 2012-03-29 Internatl Business Mach Corp <Ibm> アシスト・ハードウエア・スレッドの拡張可能な状態追跡のための方法、情報処理システム、およびプロセッサ
US20160179162A1 (en) * 2014-12-22 2016-06-23 Intel Corporation Holistic global performance and power management
JP2018500673A (ja) * 2014-12-22 2018-01-11 インテル コーポレイション ホリスティックグローバルなパフォーマンス及び電力管理

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020102185A (ja) * 2018-12-21 2020-07-02 グラフコアー リミテッドGraphcore Limited コンピュータのデータ交換
US11269806B2 (en) 2018-12-21 2022-03-08 Graphcore Limited Data exchange pathways between pairs of processing units in columns in a computer
US11561926B2 (en) 2018-12-21 2023-01-24 Graphcore Limited Data exchange pathways between pairs of processing units in columns in a computer
JP2022545222A (ja) * 2019-12-23 2022-10-26 グラフコアー リミテッド 複数のプロセッサを有するコンピュータにおける通信
JP7357767B2 (ja) 2019-12-23 2023-10-06 グラフコアー リミテッド 複数のプロセッサを有するコンピュータにおける通信
US11907725B2 (en) 2019-12-23 2024-02-20 Graphcore Limited Communication in a computer having multiple processors

Also Published As

Publication number Publication date
KR102262483B1 (ko) 2021-06-08
GB2569269A (en) 2019-06-19
TWI700634B (zh) 2020-08-01
KR20190044570A (ko) 2019-04-30
JP6797881B2 (ja) 2020-12-09
US11593185B2 (en) 2023-02-28
US10564970B2 (en) 2020-02-18
CN110214317A (zh) 2019-09-06
WO2019076714A1 (en) 2019-04-25
GB2569269B (en) 2020-07-15
CA3021416C (en) 2021-03-30
CA3021416A1 (en) 2019-04-20
CN110214317B (zh) 2023-05-02
TW201923556A (zh) 2019-06-16
GB201717291D0 (en) 2017-12-06
US20200089499A1 (en) 2020-03-19
US20190121641A1 (en) 2019-04-25
DE102018126004A1 (de) 2019-04-25
FR3072800A1 (fr) 2019-04-26
FR3072800B1 (fr) 2024-01-05

Similar Documents

Publication Publication Date Title
JP6797881B2 (ja) マルチタイル処理配列における同期化
JP6698784B2 (ja) マルチスレッドプロセッサにおけるマルチスレッドの結合状態
JP6797880B2 (ja) マルチタイル、マルチチップ処理構成における同期
KR102190879B1 (ko) 프로세서 타일들 간의 동기화
KR102183118B1 (ko) 복수-타일 프로세싱 구성에서의 동기화

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201118

R150 Certificate of patent or registration of utility model

Ref document number: 6797881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250