JP2014500549A - 処理クラスタのためのロード/ストア回路要素 - Google Patents

処理クラスタのためのロード/ストア回路要素 Download PDF

Info

Publication number
JP2014500549A
JP2014500549A JP2013540061A JP2013540061A JP2014500549A JP 2014500549 A JP2014500549 A JP 2014500549A JP 2013540061 A JP2013540061 A JP 2013540061A JP 2013540061 A JP2013540061 A JP 2013540061A JP 2014500549 A JP2014500549 A JP 2014500549A
Authority
JP
Japan
Prior art keywords
data
memory
coupled
interface
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013540061A
Other languages
English (en)
Other versions
JP2014500549A5 (ja
JP6096120B2 (ja
Inventor
ジョンソン ウィリアム
ダブリュー グロツバック ジョン
シェイク ハミッド
ジャヤライ アジェイ
ブッシュ スティーブン
チナコンダ ミュラリ
エル ナイ ジェフェリー
敏雄 永田
グプタ シャリニ
ジェイ ニチカ ロバート
エイチ バートレイ デビッド
サンダララジャン ガネーシャ
Original Assignee
日本テキサス・インスツルメンツ株式会社
テキサス インスツルメンツ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本テキサス・インスツルメンツ株式会社, テキサス インスツルメンツ インコーポレイテッド filed Critical 日本テキサス・インスツルメンツ株式会社
Publication of JP2014500549A publication Critical patent/JP2014500549A/ja
Publication of JP2014500549A5 publication Critical patent/JP2014500549A5/ja
Application granted granted Critical
Publication of JP6096120B2 publication Critical patent/JP6096120B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8053Vector processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30054Unconditional branch instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • G06F9/3552Indexed addressing using wraparound, e.g. modulo or circular addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3853Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution of compound instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units
    • G06F9/3889Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute
    • G06F9/3891Concurrent instruction execution, e.g. pipeline, look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute organised in groups of units sharing resources, e.g. clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Multi Processors (AREA)
  • Image Processing (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)
  • Complex Calculations (AREA)
  • Debugging And Monitoring (AREA)

Abstract

並列処理を実行するための装置が提供される。この装置はメッセージバス(1420)、データバス(1422)、及びロード/ストアユニット(1408)を有する。ロード/ストアユニット(1408)はシステムインタフェース(5416)、データインタフェース(5420)、メッセージインタフェース(5418)、命令メモリ(5405)、データメモリ(5403)、バッファ(5406)、スレッドスケジューリング回路要素(5401、5404)、及びプロセッサ(5402)を有する。システムインタフェースはシステムメモリ(1416)と通信するように構成される。データインタフェースはデータバスに結合される。メッセージインタフェースはメッセージバスに結合される。バッファ(5406)はデータインタフェースに結合される。スレッドスケジューリング回路要素はメッセージインタフェースに結合され、プロセッサはデータメモリ、バッファ、命令メモリ、スレッドスケジューリング回路要素、及びシステムインタフェースに結合される。

Description

本開示は、全般的にプロセッサに関し、より具体的には処理クラスタに関する。
図1はマルチコアシステム(2〜16コアの範囲)についての実行速度のスピードアップ対並列オーバーヘッドを示すグラフである。スピードアップとは、単一プロセッサの実行時間を並列プロセッサの実行時間で除したものである。図からわかるように、多数のコアから有意な利益を得るために、並列オーバーヘッドはゼロに近くなければならない。しかし並列プログラム間に何らかの相互作用が存在する場合、オーバーヘッドは極めて高くなる傾向があるため、完全に分離されたプログラムでなければ2又は3以上のプロセッサを効率的に使用するのは通常極めて難しい。従って、改善された処理クラスタが必要とされている。
従って、本開示の実施形態は、並列処理を実行するための装置を提供する。この装置は、メッセージバス(1420)と、データバス(1422)と、ロード/ストアユニット(1408)とを特徴とする。ロード/ストアユニットは、システムメモリ(1416)と通信するように構成されるシステムインタフェース(5416)と、前記データバスに結合されるデータインタフェース(5420)と、前記メッセージバスに結合されるメッセージインタフェース(5418)と、命令メモリ(5405)と、データメモリ(5403)と、前記データインタフェースに結合されるバッファ(5406)と、前記メッセージインタフェースに結合されるスレッドスケジューリング回路要素(5401、5404)と、前記データメモリ、前記バッファ、前記命令メモリ、前記スレッドスケジューリング回路要素、及び前記システムインタフェースに結合されるプロセッサ(5402)とを有する。
マルチコアのスピードアップパラメータのグラフである。
本開示の実施形態に従ったシステムの図である。
本開示の実施形態に従ったSOCの図である。
本開示の実施形態に従った並列処理クラスタの図である。 本開示の実施形態に従った並列処理クラスタの図である。
グローバルロード/ストア(GLS)ユニットの一例の図である。
GLSプロセッサの概念的動作の例の図である。
GLSユニットのためのデータフローの例を示す図である。 GLSユニットのためのデータフローの例を示す図である。
GLSユニットの更に詳細な例を示す図である。
GLSユニットのためのスカラロジックを示す図である。
図2では、並列処理を実行するSOC用アプリケーションの例が見られる。この例では、撮像デバイス1250が示される。この(例えば携帯電話又はカメラであり得る)撮像デバイス1250は、概して、画像センサ1252、SOC1300、ダイナミックランダムアクセスメモリ(DRAM)1315、フラッシュメモリ1314、ディスプレイ1254、及び電力管理集積回路(PMIC)1256を含む。動作では、画像センサ1252は、(静止画像又はビデオであり得る)画像情報を捕捉することができ、この画像情報はSOC1300及びDRAM1315によって処理され得、不揮発性メモリ(即ち、フラッシュメモリ1314)に保存され得る。また、フラッシュメモリ1314に保存される画像情報は、SOC1300及びDRAM1315の使用によって、ディスプレイ1254上で使用するために表示され得る。また、撮像デバイス1250は、可搬型であることが多く、電源としてバッテリを含む。(SOC1300によって制御され得る)PMIC1256は、バッテリ寿命を長持ちさせるために電力使用量の調整を補助し得る。
図3では、本開示の実施形態に従ったシステムオンチップ又はSOC1300の例が図示されている。この(典型的には、OMAP(登録商標)等の集積回路又はICである)SOC1300は、(概して上述の並列処理を実行する)処理クラスタ1400、及び、(上で説明及び参照された)ホスト環境を提供するホストプロセッサ1316を概して含む。ホストプロセッサ1316は、ワイド(即ち、32ビット、64ビット等)RISCプロセッサ(例えばARM Cortex−A9等)であり得、バスアービトレータ1310、バッファ1306、(ホストプロセッサ1316がインタフェースバス又はIバス1330上で周辺インタフェース1324にアクセスすることを許可する)バスブリッジ1320、ハードウェアアプリケーションプログラミングインタフェース(API)1308、及び割り込みコントローラ1322と、ホストプロセッサバス又はHPバス1328上で通信する。処理クラスタ1400は、典型的に、(例えば、荷電結合デバイス、又はCCDインタフェースであり得、オフチップデバイスと通信し得る)機能回路要素1302、バッファ1306、バスアービトレータ1310、及び周辺インタフェース1324と、処理クラスタバス又はPCバス1326上で、通信する。この構成を用いて、ホストプロセッサ1316は、API1308を介して情報を提供する(即ち、所望の並列実装に適合するように処理クラスタ1400を構成する)ことができ、一方、処理クラスタ1400及びホストプロセッサ1316はいずれも、(フラッシュインタフェース1312を介して)フラッシュメモリ1314に、(メモリコントローラ1304を介して)DRAM1315に、直接アクセスできる。また、Joint Test Action Group(JTAG)インタフェース1318を介して、テスト及びバウンダリスキャンが実行され得る。
図4を参照すると、本開示の実施形態に従った並列処理クラスタ1400の例が示されている。典型的には、処理クラスタ1400はハードウェア722に対応する。処理クラスタ1400は、概して、パーティション1402−1〜1402−Rを含む。これらは、ノード808−1〜808−N、ノードラッパー810−1〜810−N、命令メモリ1404−1〜1404−R、及び(以下で詳しく説明する)バスインタフェースユニット又は(BIU)4710−1〜4710−Rを含む。ノード808−1〜808−Nは、各々データインターコネクト814に(各々のBIU4710−1〜4710−R及びデータバス1422を介して)結合され、パーティション1402−1〜1402−Rのための制御及びメッセージが制御ノード1406からメッセージ1420を介して提供される。また、グローバルロード/ストア(GLS)ユニット1408及び共有機能メモリ1410は、(後述のように)データ移動のための付加的な機能を提供する。それに加えて、レベル3又はL3キャッシュ1412、(概して、IC内には含まれない)周辺装置1414、(典型的にはフラッシュメモリ1314及び/又はDRAM1315、並びにSOC1300内に含まれないその他のメモリである)メモリ1416、及びハードウェアアクセラレータ(HWA)ユニット1418が処理クラスタ1400と共に用いられる。また、データ及びアドレスを制御ノード1406に通信するように、インタフェース1405が提供される。
処理クラスタ1400は、概して、データ転送のために「プッシュ」モデルを使用する。データ転送は要求応答型のアクセスではなく、概してポステッドライトとして現れる。これは、データ転送が一方向であるため要求応答アクセスに比べてグローバルインターコネクト(即ち、データインターコネクト814)の占有を2分の1に減らすという利点を有する。概して、インターコネクト814を介して要求をルーティングし、その後、応答が要求元へルーティングされ、その結果インターコネクト814上で2つの遷移が生成されることは望まれない。プッシュモデルは単一転送を生成する。これは、ネットワークサイズが増大するとネットワークレイテンシが増大するため、またこのことが要求応答型トランザクションのパフォーマンスを低下させることは避けられないことであるため、スケーラビリティに関して重要である。
プッシュモデルは、データフロープロトコル(即ち、812−1〜812−N)と同様に、グローバルデータトラフィックを、正確さのために用いられるものまで概して最小化する一方、ローカルノードの利用率に対するグローバルデータフローの影響も概して最小化する。大量のグローバルトラフィックであってもノード(即ち、808−i)のパフォーマンスに対する影響は、通常、皆無に近い。ソースはデータを(後述する)グローバル出力バッファに書き込み、転送成功の確認を要求することなく継続する。データフロープロトコル(即ち、812−1〜812−N)は、概して、インターコネクト814で単一転送を用い、データをあて先へ移動する最初の試みでの転送が成功することを確実にする。(後述する)グローバル出力バッファは(例えば)最大16出力まで保持することができるため、出力のための瞬時グローバル帯域幅が不充分になることに起因するノード(即ち、808−i)のストールの可能性が非常に低くなる。更に、瞬時帯域幅は、要求応答トランザクション又は転送失敗の繰り返しによる影響を受けない。
最後に、プッシュモデルはプログラミングモデルに一層密接に適合する。言い換えるとプログラムは自己データを「フェッチ」せずに、その代わりに、プログラムの入力変数及び/又はパラメータは呼び出される前に書き込まれる。プログラミング環境では、入力変数の初期化は、ソースプログラムによるメモリへの書き込みとして行われる。処理クラスタ1400内では、これらの書き込みがポステッドライトに変換され、変数の値をノードコンテキストにポピュレートさせる。
(後述する)グローバル入力バッファは、ソースノードからデータを受け取るために用いられる。各ノード808−1〜808−Nのためのデータメモリが単一ポートであるため、入力データの書き込みが、ローカルの単一入力多重データ(SIMD)による読み出しとコンフリクトすることがあり得る。入力データをグローバル入力バッファへ受け入れ、そこで入力データが空きのデータメモリサイクルを待つことができることによって、この競合は回避される(即ち、SIMDアクセスとのバンクコンフリクトはない)。データメモリは、(例えば)32バンクを有し得るため、直ちにバッファがフリーになる可能性が非常に高い。しかしながら、転送を確認するためのハンドシェイキングがないので、ノード(即ち、808−i)はフリーのバッファエントリを持つはずである。所望とされる場合は、グローバル入力バッファは、バッファ位置をフリーにするために、ローカルノード(即ち、808−i)をストールさせてデータメモリに強制的に書き込みを行うことができるが、このイベントは極めて希であるべきである。典型的には、グローバル入力バッファは2つの別々のランダムアクセスメモリ(RAM)として実装されて、一方がデータメモリへ読み出されるべき状態にある間、他方がグローバルデータを書き込むための状態になり得るようにする。メッセージングインターコネクトは、グローバルデータインターコネクトとは分かれているが、同様にプッシュモデルを使用する。
システムレベルでは、所望のスループットにスケーリングされた多数のノードを備えるSMP又は対称型多重処理のように、ノード808−1〜808−Nが処理クラスタ1400内で複製される。処理クラスタ1400は極めて多数のノードにまでスケーリングし得る。ノード808−1〜808−Nはパーティション1402−1〜1402−Rにグループ分けされ、各パーティションは1つ又は複数のノードを有する。パーティション1402−1〜1402−Rは、ノード間のローカル通信を増大させることによって及びより大きなプログラムで一層大量の出力データを計算させることによってスケーラビィリティを促進し、その結果、所望のスループット要件を達成する可能性を更に高める。パーティション(即ち、1402−i)内では、ノードはローカルインターコネクトを用いて通信し、グローバルリソースを必要としない。また、パーティション(即ち、1404−i)内のノードは、排他的命令メモリを用いる各ノードから共通命令メモリを用いる全てのノードまで、任意の粒度で、命令メモリ(即ち、1404−i)を共有することができる。例えば、3つのノードが命令メモリの3つのバンクを共有し、第4のノードが命令メモリの排他的バンクを有することができる。ノードが命令メモリ(即ち、1404−i)を共有するとき、それらのノードは、概して、同じプログラムを同期的に実行する。
また、処理クラスタ1400は非常に多数のノード(即ち、808−i)及びパーティション(即ち、1402−i)をサポートし得る。しかしながら、1つのパーティションについて4以上のノードを持つと概してノンユニフォームメモリアクセス(NUMA)アーキテクチャに類似するため、パーティション毎のノードの数は通常は4つに限定されている。この例では、パーティションは、(後でインターコネクト814に関連して説明する)1つ(又は複数)のクロスバーを介して接続される。クロスバーは概して横断帯域幅が一定している。処理クラスタ1400は、現在、サイクル毎に1ノード幅のデータ(例えば、64、16ビットピクセル)を転送するように設計されており、4サイクルに亘り、1サイクルにつき16ピクセルの4転送に区分される。処理クラスタ1400は、概して、レイテンシトレラントであり、インターコネクト814がほぼ飽和(この状態を達成するのは合成プログラム以外では極めて難しいことに留意されたい)であっても、ノードバッファリングが、概して、ノードストールを防止する。
典型的には、処理クラスタ1400はパーティション間で共有する下記のグローバルリソースを含む。
(1) 制御ノード1406。これは(メッセージバス1420で)システムワイドのメッセージングインターコネクト、イベント処理及びスケジューリング、及びホストプロセッサ及びデバッガ(これらは全て後で詳しく説明する)へのインタフェースを提供する。
(2) GLSユニット1408。これはプログラマブル縮小命令セット(RISC)プロセッサを含み、システムデータ移動を可能にする。システムデータ移動は、GLSデータ移動スレッドとして直接コンパイルされ得るC++プログラムによって記述され得る。これによって、ソースコードを修正することなく、クロスホスト環境でのシステムコードの実行が可能になり、また、システム又は(後述する)SIMDデータメモリ内の任意のアドレス(変数)のセットから別の任意のアドレス(変数)のセットに移動できるため、ダイレクトメモリアクセスよりもより一般的である。GLSユニット1408は、(例えば)0−サイクルのコンテキストスイッチを備え、マルチスレッド化され、例えば、最大16スレッドまでサポートする。
(3) 共有機能メモリ1410。これは、一般のルックアップテーブル(LUT)及び統計収集機能(ヒストグラム)を提供する大型共有メモリである。また、これは大型共有メモリを使用して、リサンプリング及び歪補正等のノードSIMDにより(コストの理由で)充分サポートされていないピクセル処理をサポートし得る。この処理はネイティブタイプとして、スカラ、ベクトル、及び2Dアレイを実装する(例えば)6発行命令RISCプロセッサ(即ち、後で詳しく説明するSFMプロセッサ7614)を用いる。
(4) ハードウェアアクセラレータ1418。これは、プログラマビリティを必要としない機能のため、或いは電力及び/又は面積を最適化するために組み込まれ得る。アクセラレータは、サブシステムにはシステム内の他のノードとして現れ、制御及びデータフローに参加し、イベントを作成可能であり、スケジューリング可能である。またデバッガにとっては可視的である。(ハードウェアアクセラレータは、適用可能であるときは、専用のLUT及び統計収集を有し得る。)
(5) データインターコネクト814及びシステムオープンコアプロトコル(OCP)L3接続1412。これらは、ノードパーティション、ハードウェアアクセラレータ、及びシステムメモリ、及び、データバス1422上の周辺装置の間のデータ移動を管理する。(ハードウェアアクセラレータは、L3へのプライベート接続も有し得る)。
(6) デバッグインタフェース。これらは、図には示されていないが、本明細書中に記載される。
GLSユニット1408は、データタイプ、オブジェクト、及び変数の割り振りの一般的C++モデルを、システムメモリ1416、周辺装置1414、及びノード808−i(適用する場合ハードウェアアクセラレータを含む)等のノード間のデータ移動にマッピングし得る。これにより機能上処理クラスタ1400の動作と同等の一般的C++プログラムが可能になり、シミュレーションモデルやシステムダイレクトメモリアクセス(DMA)の近似を必要としない。GLSユニットは、システムデータ構造及びノードデータ構造へのランダムアクセスを用い、C++コンパイラの対象である充分に一般的なDMAコントローラを実装し得る。この実装は、使用可能なリソースの利用率に関して、たとえデータ移動がC++プログラムによって制御されている場合でも、データ移動の効率が従来のDMAコントローラの効率に近くなる。しかしながら、それは、一般に、システムDMAとプログラム変数との間のマッピングの需要を回避し、DMAペイロードにデータをパック及びアンパックするための多くのサイクルの可能性を回避する。また、それはデータ伝送を自動的にスケジューリングし、それによってDMAレジスタ設定及びDMAスケジューリングのためのオーバーヘッドが回避される。スケジュールミスマッチに起因するオーバーヘッドや非効率性がほとんど無くデータが伝送される。
GLSユニット1408は、データタイプ、オブジェクト、及び変数の割り振りの一般的C++モデルを、システムメモリ1416、周辺装置1414、及びノード808−i(適用する場合ハードウェアアクセラレータを含む)等のノード間のデータ移動にマッピングし得る。これにより機能上処理クラスタ1400の動作と同等の一般的C++プログラムが可能になり、シミュレーションモデルやシステムダイレクトメモリアクセス(DMA)の近似を必要としない。GLSユニットは、システムデータ構造及びノードデータ構造へのランダムアクセスを用い、C++コンパイラの対象である充分に一般的なDMAコントローラを実装し得る。この実装は、使用可能なリソースの利用率に関して、たとえデータ移動がC++プログラムによって制御されている場合でも、データ移動の効率が従来のDMAコントローラの効率に近くなる。しかしながら、それは、一般に、システムDMAとプログラム変数との間のマッピングの需要を回避し、DMAペイロードにデータをパック及びアンパックするための多くのサイクルの可能性を回避する。また、それはデータ伝送を自動的にスケジューリングし、それによってDMAレジスタ設定及びDMAスケジューリングのためのオーバーヘッドが回避される。スケジュールミスマッチに起因するオーバーヘッドや非効率性がほとんど無くデータが伝送される。
図5を参照すると、GLSユニット1408がより詳細に示されている。GLSユニット1408の主な処理構成要素はGLSプロセッサ5402である。GLSプロセッサ5402は、上述したノードプロセッサ4322と同様の一般的な32ビットRISCプロセッサであり得るが、GLSユニット1408内での使用にカスタマイズされてもよい。例えば、コンパイルされたプログラムが所望に応じてノード変数のアドレスを生成できるように、GLSプロセッサ5402がノード(即ち、808−i)のためのSIMDデータメモリのためのアドレッシングモードを複製することができるようカスタマイズされてもよい。また、GLSユニット1408は、概して、コンテキスト保存メモリ5414、スレッドスケジューリング機構(即ち、メッセージリスト処理5402及びスレッドラッパー5404)、GLS命令メモリ5405、GLSデータメモリ5403、リクエストキュー及び制御回路5408、データフロー状態メモリ5410、スカラ出力バッファ5412、グローバルデータIOバッファ5406、及びシステムインタフェース5416を含み得る。また、GLSユニット5402は、インターリーブされたシステムデータをデインターリーブされた処理クラスタデータに変換及びその逆を行う、インターリービング及びデインターリービング用の回路要素、及び構成読み出しスレッド(Configuration Read thread)を実装するための回路要素を含み得る。構成読み出しスレッドは、処理クラスタ1400のための構成(即ち、並列化されたシリアルプログラムのために、処理クラスタ1400の計算及びメモリリソースに少なくとも部分的に基づくデータ構造)を(プログラム、ハードウェア初期化等を含む)メモリ1416からフェッチし、それを処理クラスタ1400にディストリビュートする。
GLSユニット1408では3つのメインインタフェース(即ち、システムインタフェース5416、ノードインタフェース5420、及びメッセージングインタフェース5418)があり得る。システムインタフェース5416では、典型的に、システムメモリ1416及び周辺装置1414へのアクセスのため、システムL3インターコネクトへの接続がある。このインタフェース5416は概して、各々256ビットL3パケットの(例えば)128ラインを格納するために充分な大きさの2つのバッファ(ピンポン配置)を有する。メッセージングインタフェース5418では、GLSユニット1408は、オペレーショナルメッセージ(即ち、スレッドスケジューリング、シグナルリング終了イベント、及びグローバルLSユニット構成)を送信/受信でき、処理クラスタ1400に対するフェッチされた構成をディストリビュートでき、更に、送信スカラ値を宛先コンテキストに送信することが可能である。ノードインタフェース5420では、グローバルIOバッファ5406は概してグローバルデータインターコネクト814に結合される。概して、このバッファ5406は、ノードSIMDデータの64ライン(例えば、各ラインは16ビットの64ピクセルを含み得る)を格納するために充分な大きさである。また、バッファ5406は、1サイクル当たり16ピクセルのグローバル伝送幅にマッチングするように、256×16×16ビットとして編成され得る。
ここで、メモリ5403、5405、及び5410を参照すると、各々が概してレジデントスレッドに関連する情報を含む。GLS命令メモリ5405は、スレッドがアクティブであるか否かに拘らず、全てのレジデントスレッドのための命令を概して含む。GLSデータメモリ5403は、全てのレジデントスレッドのための変数、テンポラリ、及びレジスタスピル/フィル値を概して含む。また、GLSデータメモリ5403は、スレッドコンテキスト記述子及び宛先リスト(ノード内の宛先記述子に似ている)を含む、スレッドコードから隠されたエリアを有し得る。また、宛先コンテキストへの出力を含み得るスカラ出力バッファ5412がある。このデータは水平グループ内の多数の宛先コンテキストへコピーされるべき順番に概して保たれ、処理クラスタ1400の処理パイプラインにマッチングするようにスカラデータの伝送をパイプライン化する。データフロー状態メモリ5410は処理クラスタ1400からスカラ入力を受け取る各スレッドのためのデータフロー状態を概して含み、この入力に依存するスレッドのスケジューリングを制御する。
典型的に、GLSユニット1408のためのデータメモリは、いくつかの部分に構成される。データメモリ5403のスレッドコンテキストエリアはGLSプロセッサ5402のためのプログラムには可視であるが、データメモリ5403の残りの部分及びコンテキスト保存メモリ5414はプライベートのままである。コンテキスト保存/復元又はコンテキスト保存メモリは、通常、全ての中断されたスレッド(即ち、16×l6×32ビットのレジスタコンテンツ)のためのGLSプロセッサ5402レジスタのコピーである。データメモリ5403内の他の2つのプライベートエリアは、コンテキスト記述子及び宛先リストを含む。
リクエストキュー及び制御5408は、GLSプロセッサ5402のためのロード及びストアアクセスをGLSデータメモリ5403の外で概して監視する。これらのロード及びストアアクセスは、スレッドにより、システムデータを処理クラスタ1400へ移動及びその逆を行うように実行されるが、データは通常、GLSプロセッサ5402の中を物理的に流れることはなく、またそれはデータ上で動作を概して実行しない。代わりに、リクエストキュー5408がスレッドの「移動」をシステムレベルでの物理的移動に変換し、ロードを移動のためのストアアクセスにマッチングさせ、且つシステムL3及び処理クラスタ1400データフロープロトコルを用いて、アドレス及びデータシーケンシング、バッファ割り付け、フォーマッティング、及び、伝送制御を実行する。
コンテキスト保存/復元エリア又はコンテキスト保存メモリ5414は概して、GLSプロセッサ5402のための全てのレジスタを一度に保存及び復元し得るワイドランダムアクセスメモリ又はRAMであり、0−サイクルコンテキスト切り替えをサポートする。スレッドプログラムは、アドレス計算、状態試験、ループ制御等のためのデータアクセス当たり数サイクルを必要とし得る。大量の潜在的スレッドがあるため、且つ、目的が、ピークスループットをサポートするために充分なように全てのスレッドをアクティブに保つことであるため、最小サイクルオーバーヘッドでコンテキスト切り替えが起こることが重要であり得る。また、単一スレッドの「移動」が全てのノードコンテキストのためのデータ(例えば、水平グループ内のコンテキスト当たりの1変数当たり64ピクセル)を伝送するという事実によって、スレッド実行時間が部分的にオフセットされ得ることに留意すべきであろう。これは、ピークピクセルスループットをサポートする一方で、相当大きな数のスレッドサイクルを可能にし得る。
ここで、スレッドスケジューリング機構を参照すると、この機構はメッセージリスト処理5401及びスレッドラッパー5404を概して含む。スレッドラッパー5404は、典型的に、GLSユニット1408のためのスレッドをスケジューリングするために、入ってくるメッセージをメールボックスに受け取る。概して、スレッド当たり1つのメールボックスエントリがあり、メールボックスエントリは、そのスレッドのための初期プログラムカウントや、スレッドの宛先リストのプロセッサデータメモリ(即ち、4328)内の位置等の情報を含み得る。また、このメッセージは、オフセット0で始まり、スレッドのプロセッサデータメモリ(即ち、4328)コンテキストエリアに書き込まれる、パラメータリストを含み得る。また、スレッドが中断されるときスレッドプログラムカウントを保存するため、及びデータフロープロトコルを実装するために宛先情報を置くために、スレッド実行中にもメールボックスエントリが用いられる。
GLSユニット1408は、メッセージングに加えて、構成処理も実行する。典型的に、この構成処理は構成読み出しスレッドを実装し得る。構成読み出しスレッドは、処理クラスタ1400のための構成(プログラム、ハードウェア初期化等を含む)をメモリからフェッチし、それを処理クラスタ1400の残りの部分にディストリビュートする。典型的に、この構成処理は、ノードインタフェース5420で実行される。加えて、GLSデータメモリ5403は、コンテキスト記述子、宛先リスト、及びスレッドコンテキストのためのセクション又はエリアを概して含む。典型的に、スレッドコンテキストエリアはGLSプロセッサ5402に対して可視であり得るが、GLSデータメモリ5403の残りのセクション又はエリアは可視でなくてもよい。
GLSプロセッサ5402のためのプログラムが正しく機能するためには、それが、処理クラスタ1400内の他の32ビットプロセッサと概して一貫性があり、またノードプロセッサ(即ち、ノードプロセッサ4322)及び(以下で説明する)SFMプロセッサ7614と概して一貫性があるメモリの見え方を有するべきであろう。概してGLSプロセッサ5402は、他のプロセッサ及び周辺装置(即ち、1414)と同等の、システム変数及びデータ構造のためのアドレッシングモードを備える、汎用の32ビットプロセッサであるため、処理クラスタ1400と共通のアドレッシングモードを有することは自然なことである。GLSプロセッサ5402がデータタイプ及びコンテキスト編成と共に正しく動作し、C++プログラミングモデルを使用してデータ伝送を正しく実行するためには、ソフトウェアが問題となる。
概念上、GLSプロセッサ5492はベクトルプロセッサの特殊形式として考えられ得る(ここで、ベクトルは、例えばフレーム内の走査線上の全てのピクセルの形式、又は、例えばノードコンテキスト内の水平グループの形式である)。これらのベクトルは、フレーム幅及びコンテキスト編成に応じて可変数の要素を有し得る。また、ベクトル要素は可変サイズ及びタイプであり得る。また、例えば、ピクセルが同じライン上でピクセルの他のタイプとインターリーブされ得るため、隣接する要素は必ずしも同じタイプではない。GLSプロセッサ5402のためのプログラムは、システムベクトルをノードコンテキストにより用いられるベクトルに変換し得る。これは、オペレーションの一般的なセットではなく、特定の使用例のためのノード−コンテキスト編成から抽象化されたGLSプロセッサ5402のためのプログラムの順序付け及び保持に役立つデータフロープロトコルを用い、通常、これらのベクトルの移動及びフォーマッティングに関与する。
システムデータは、異なるピクセルタイプ、データサイズ、インターリービングパターン、パッキング等を反映し得る、多数の異なるフォーマットを有し得る。ノード(即ち、808−i)では、SIMDデータメモリピクセルデータは、例えばピクセル当たり16ビットで整合された64ピクセルの、ワイドで、デインターリーブされたフォーマットである。システムデータとノードデータとの間の通信は、「システムアクセス」が水平グループの全ての入力コンテキストのための入力データを提供することを意図されているという事実によって更に複雑化される。このグループの構成及びその幅は、アプリケーションプログラムの外部のファクタに依存する。このレベルの詳細、即ち特定のノードフォーマットへの及びそれからのフォーマット変換か、又は可変のノードコンテキスト編成のいずれか、をアプリケーションプログラムに晒すことは一般に極めて望まれないことである。これらは、典型的に、アプリケーションレベルで扱うには非常に複雑であり、詳細は実装に依存する。
GLSプロセッサ5402のためのソースコードでは、システム変数のローカル変数への値の割り振りは、システム変数が、ローカルデータタイプに変換され得るデータタイプを有していること、及びその逆を一般に必要とし得る。基本システムデータタイプの例は、文字及び短い整数である。これらは、8、10、又は12ビットのピクセルに変換され得る。また、システムデータは、インターリーブされた又はデインターリーブされたかのいずれかのフォーマットの、ピクセルのパックされたアレイ等の合成タイプを有し得る。また、ピクセルは、Bayer、RGB、YUV等のような種々のフォーマットを有し得る。基本ローカルデータタイプの例は、整数(32ビット)、短い整数(16ビット)、及び、一対の短い整数(32ビットにパックされた2つの16ビット値)である。基本システム及びローカルデータタイプの変数は、アレイ、構造、及びこれらの組合せにおける要素として現れ得る。システムデータ構造は、他のC++データタイプとの組合せで、互換性データ要素を含み得る。ローカルデータ構造は、通常、要素としてローカルデータタイプを含み得る。ノード(即ち、808−i)は、環状バッファをハードウェア内に直接実装して、トップエッジ及びボトムエッジバウンダリ処理を含む垂直コンテキスト共有をサポートする独自のタイプのアレイを提供する。典型的に、GLSプロセッサは、GLSユニット1408に含まれ、以下を行なう。
(1)C++オブジェクトクラスを使用して、ユーザから上述の詳細を抽象化する。
(2)プログラミングモデルにマッピングするシステムへ及びそのシステムからのデータフローを提供する。
(3)処理クラスタ1400のデータ依存性フレームワークに適合する、非常に一般的な高性能ダイレクトメモリアクセスと同等のことを実行する。
(4)効率的な処理クラスタ1400動作のために自動的にデータフローをスケジューリングする。
アプリケーションプログラムは、インターリーブされたフォーマット(インスタンスのフォーマットは属性によって特定される)でシステムピクセルを表すために、フレーム(Frame)と称されるクラスのオブジェクトを用いる。Frameは、所与の垂直オフセットでの走査線の位置を特定するアレイインデックスを備えて、ラインのアレイとして編成される。Frameオブジェクトの異なるインスタンスは、異なるピクセルタイプの異なるインターリーブされたフォーマットを表し得る。これらのインスタンスの多数が同じプログラムで用いられ得る。Frameオブジェクト内の割り振り演算子は、データが処理クラスタ1400に伝送されるか、又は処理クラスタ1400から伝送されるかに依存して、そのフォーマットに適切なデインターリービング又はインターリービング動作を実行する。
ローカルデータタイプ及びコンテキスト編成の詳細は、クラスライン(Line)の概念を導入することによって抽象化される(GLSユニット1408ではBlockデータは、ブロックに多数のラインを提供する明示的な繰り返しを備える、Lineデータのアレイとして扱われる)。Lineオブジェクトは、GLSプロセッサ5402のためのプログラムによって実装されると、互換性のシステムデータタイプからの変数の割り振り、又は互換性のシステムデータタイプへの割り振り以外の動作は概してサポートしない。Lineオブジェクトは、例えば、ピクセルタイプ、ノードの入力及び出力の両方、データがパックされるか否か、データがどのようにパックされアンパックされるか、データがインターリーブされるか否か、インターリービング及びデインターリービングパターン、及びノードのコンテキスト構成などの、システム/ローカルデータ通信の全ての属性を通常、カプセル化する。
図6を参照すると、GLSプロセッサ5402の画像処理アプリケーションのための読み出し及び書き込みスレッドの概念的動作の例が示されている。プログラマーから見ると、この例では、フレームはインターリーブされたBayerピクセルのバッファで概して構成される。インターリーブされたピクセル上で動作するのは、共有機能メモリ1410内のノード(即ち、808−i)又はSIMDにとって概して非効率である。理由は、通常、異なる動作は異なるピクセルタイプ上で実行され、そのため、単一命令は概してインターリーブされたフォーマットの全てのピクセルに適用され得ないからである。この理由により、図6のノードコンテキストに示されるLineデータは、デインターリービングによって取得される。システムデータは必ずしもインターリーブされる必要はない。例えば、アプリケーションはシステムメモリ1416を、処理クラスタ1400によって使用されるデインターリーブされたフォーマットのままの中間結果を得るために使用し得る。しかしながら、殆どの入力及び出力フォーマットはインターリーブされる。GLSユニット1408はこれらのフォーマットとデインターリーブされた処理クラスタ1400表現との間の変換を行なうべきであろう。
GLSプロセッサ5402は、システムフォーマット又はノードコンテキストフォーマットのいずれかでピクセルのベクトルを処理する。しかしながら、この例のGLSプロセッサ5402のためのデータパスは、これらのベクトル上ではどの動作も直接実行しない。この例で、プログラミングモデルによってサポートされ得る動作は、FrameからLine、又は共有機能メモリ1410ブロックタイプへの割り振り、及びその逆であり、Line又はBlockオブジェクト上で動作する処理クラスタノードによってFrameオブジェクト上での直接動作と同等のことを達成するために必要とされる任意のフォーマッティングを実行する。
フレームのサイズは幾つかのパラメータによって決定される。幾つかのパラメータとは、ピクセルタイプの数、ピクセル幅、バイトバウンダリーへのパディング、及び、走査線当たりのピクセルの数及び走査線の数におけるフレームの幅及び高さを含む。これらのパラメータは解像度に応じて変化し得る。フレームは処理クラスタ1400コンテキストにマッピングされる。処理クラスタ1400コンテキストは実際の像よりもより幅が狭い水平グループ、フレーム分割、として通常編成される。フレーム分割は、Line又はBlockタイプとしての処理のために、処理クラスタ1400の中でスワップされる。この処理は結果を生成し、結果が別のFrameであるとき、その結果は通常、フレーム分割上の処理クラスタ1400動作の部分的中間結果から、再構築される。
クロスホストのC++プログラミング環境では、フレーム分割を処理するためにハードウェアで必要とされる複雑性を概して除去するために、クラスLineのオブジェクトは、この例の像の全体の幅であるとみなされる。この環境では、Lineオブジェクトのインスタンスが走査線全体に亘る水平方向の繰り返しを含む。Frameオブジェクトの詳細は、オブジェクト実装によって抽象化されず、デインターリービング及びインターリービングのために必要とされるビットレベルのフォーマッティングを隠すために、及び、GLSプロセッサ5402のための命令に変換可能にするために、Frameオブジェクト内のイントリンシックによって抽象化される。これによって、クロスホストのC++プログラムが、処理クラスタ1400の環境に依存せずに、処理クラスタ1400の環境での実行と同等の結果を得ることが可能になる。
処理クラスタ1400のためのコード生成環境では、Lineはスカラタイプ(一般に整数に等しい)であり、例外は、コード生成が、SIMDデータメモリからのアクセスのための水平ピクセルオフセットに対応するアドレッシング属性をサポートすることである。この例の走査線上の繰り返しは、SIMDでの並列動作、ノード(即ち、808−i)上のコンテキスト間の繰り返し、及びノードの並列動作の組合せによって達成される。フレーム分割は、(フレーム及びフレーム分割のパラメータを知っている)ホストソフトウェア、(ホストから送られるパラメータを使用する)GLSソフトウェア、及び(データフロープロトコルを用いて右端のバウンダリを検出する)ハードウェアの組合せによって制御され得る。FrameはGLSプログラムによって実装されるオブジェクトクラスである。例外は、クラス実装のほとんどが、後述するように、GLSプロセッサ5402のための命令によって直接達成されることである。Frameオブジェクトのために定義されるアクセス関数は、ハードウェアがアクセス及び動作フォーマッティングを制御し得るように、所与のインスタンスの属性をハードウェアにロードするという副次的な効果を有する。これらの動作は、所望のスループットでソフトウェアに実装するには、概して非効率過ぎるであろうし、多数のスレッドがアクティブである場合は特にそうである。
Frameオブジェクトの幾つかのアクティブなインスタンスがあり得るので、任意の所与の時点で、ハードウェア内でアクティブな幾つかの構成があることが予想される。オブジェクトが例示されると、コンストラクタがそのオブジェクトに属性を関連付けする。所与のインスタンスのアクセスは、そのインスタンスの属性をハードウェアにロードする。これは概念上は、インスタンスのデータタイプを定義するハードウェアレジスタと似ている。各インスタンスがそれ自体の属性を有するため、多数のインスタンスがアクティブになり得るし、各々が、フォーマッティングを制御するための、それら自体のハードウェア設定を有する。
読み出しスレッド及び書き込みスレッドは、独立プログラムとして書かれる。そのため、それらのそれぞれの制御及びデータフローに基づいて各々が独立してスケジューリングされ得る。下記の2つのセクションは、読み出しスレッド及び書き込みスレッドの例を提供し、スレッドコード、Frameクラス宣言、及び、非常に少数の命令を用い、非常に複雑なピクセルフォーマッティングで、これらがどのように大きなデータ伝送を実装するために用いられるかを示す。
読み出しスレッドは、システムデータを表す変数を、処理クラスタ1400プログラムへの入力を表す変数に割り振る。これらの変数は、スカラデータを含む任意のタイプであり得る。概念的には、読み出しスレッドは、例えば、固定幅のフレーム分割内で垂直方向に、繰り返しの幾つかの形式を実行する。ループ内では、Frameオブジェクト内のピクセルは、Frameの詳細、及びフレーム分割の編成(Lineの幅)がソースコードから隠されて、Lineオブジェクトに割り振られる。また、他のベクトル又はスカラタイプの割り振りもあり得る。各ループ繰り返しの終わりに、宛先処理クラスタ1400プログラムがSet_Validを用いて呼び出される。ループ繰り返しは通常、データのハードウェア伝送に関して非常に速く実行する。ループ実行は、所望の伝送を実行するようにハードウェアバッファ及び制御を構成する。繰り返しの終わりに、(タスク切り替え命令によって)スレッド実行が中断されるが、ハードウェア伝送は継続する。これは、他のスレッドを実行するためにGLSプロセッサ5402をフリーにする。このことは、単一のGLSプロセッサ5402プロセッサが最大(例えば)16スレッドの伝送を制御することがあり得るため、重要なことであり得る。ハードウェア伝送が完了すると、中断されたスレッドが再び実行可能にされる。
ベクトル出力は通常、繰り返しキューのテールでのエントリによって、制御される。このエントリ及び他のエントリはスカラデータを制御する。この理由は、図7に示すように、スレッドから直接ベクトルデータを受け取らないプログラムへのスカラパラメータの出力をサポートするためである。この例では、読み出しスレッドは、プログラムAにベクトルデータを、プログラムA〜Dにスカラデータを提供する。データフローのこのスタイルは、プログラムA〜Dの並列実行の潜在性を消すシリアル化を導入する。このケースでは、並列実行は、パイプライン実行によって達成されて、そのため、プログラムAが読み出しスレッドの繰り返しNからデータを受け取り、実行し、プログラムBの同じ繰り返しNにデータを出力する、という様に行なわれるようにする。実行の任意の所与の時点で、プログラムA〜Dは、それぞれ読み出しスレッドの繰り返しN〜N−3に基づいて実行する。これをサポートするために、読み出しスレッドは、繰り返しN〜N−3のためのデータを同時に出力するべきであろう。そうでない場合、読み出しスレッドの繰り返しはその繰り返しの全ての出力とインターロックし、読み出しスレッドの繰り返しNは、繰り返しNのための入力を受け取るためにプログラムDを待たなければならず、このインタバルの間、他のプログラムは中断されることになろう。
処理パイプラインの同レベル(コンテキスト記述子の出力遅延と同じ値を備えるプログラム)に読み出しスレッドを入力させ、それによって、読み出しスレッドがその出力のパイプライン段で動作するようにすることによってこのシリアル化は避けられ得る。これは、入力の各レベルのための追加の読み出しスレッドのコストが発生する。これはベクトル入力の場合、ベクトル入力がシステムからの入力である段の数は概して限られているため、許容可能である。しかしながら、全てのプログラムが、システムから、又は読み出しスレッドによる計算(例えば、各処理段の環状バッファを制御する垂直インデックスパラメータ)のいずれかで、各繰り返しのためにスカラパラメータを更新することを要求し得る可能性が高い。これは、各パイプライン段のために読み出しスレッドを必要とし、読み出しスレッドの数に大きすぎる需要を課すことになろう。
スカラデータはベクトルデータよりはるかに小さいメモリを必要とし得るので、GLSユニット1408はスカラ出力バッファ5412内の各繰り返しからのスカラデータをストアし、繰り返しキューを使用して、処理パイプラインをサポートするよう、必要に応じてこのデータを提供し得る。これは、必要とされるバッファリングが全てのノードのSIMDメモリの規模になるであろうため、ベクトルデータの場合は、通常、実現可能ではない。
GLSユニット1408からのスカラ出力のパイプライン化が図8に示される。図示されるように、GLSユニット1408アクティビティ、プログラム実行、及びプログラム間の伝送がある。一番上のシーケンスはプログラムAの実行にインターリーブされたGLSスレッドアクティビティを示す。(簡潔さのために、ベクトル及びスカラ伝送が同じ時間量を取って示されている。実際にはベクトル伝送ははるかに長い時間を要し、プログラムAの多数の宛先コンテキストに書き込み、スカラデータをベクトルデータと共にこれらのコンテキストにコピーする。これは、図示されていないがプログラムAのインスタンスをパイプライン化する効果を有する。)第1の繰り返しでは、読み出しスレッドは、プログラムAのためのベクトルデータ、及びプログラムA〜Dのためのスカラデータの出力をトリガする。これは、ベクトルA1及びスカラA1〜スカラDlによって示される。これは第1の繰り返しであるので、全ての宛先コンテキストはアイドルであり、これらの伝送の全てが実行され得る。従って、この繰り返しのためには、繰り返しキューエントリはこれらの伝送が完了した後にフリーになり得る。この繰り返しの出力はプログラムAの実行を可能にし、プログラムAはデータベクトルB1を出力する。
後続のプログラムは、入力を受け取ると、実行し、実行パイプラインを反映するように時間がスキュー(skew)する。第1の繰り返しの間、各プログラムがRelease_lnputを信号送出するまで、読み出しスレッドはスカラデータを宛先コンテキストに出力することができない。この理由のため、宛先コンテキストがSPで入力をイネーブルするまで、スカラB2〜スカラD2は、スカラ出力バッファ5412内に保持される。このデータのスカラ出力バッファ5412内の期間はグレーの破線矢印によって示され、スカラデータがソースプログラムからのベクトル入力に同期していることを示す。また、この時間の間、他の繰り返しのためのデータは、処理パイプラインの深さまで、この例では、およそ4繰り返しまで、スカラ出力バッファ内に蓄積される。これらの繰り返しの各々は、データタイプ、宛先、及びスカラ出力バッファ内のスカラデータの位置を後続の繰り返しのために記録する、繰り返しキューエントリを有する。
各宛先へのスカラ出力が完了すると、その事実が繰り返しキュー内に記録される(タイプフラグを00’bに設定することによって、LSBが1になる)。全てのタイプのフラグが0になると、これは繰り返しからの全ての出力が完了したことを示し、繰り返しキューエントリはフリーにされ得る。この時点で、スカラ出力バッファ5412のコンテンツはこの繰り返しのために無視され、メモリは後続スレッドの実行による割り当てのためにフリーにされる。
GLSスレッドは、スケジュール読み出しスレッド及びスケジュール書き込みスレッドメッセージによってスケジューリングされる。このスレッドがスカラ入力(読み出し又は書き込みスレッド)又はベクトル入力(書き込みスレッド)に依存しない場合、それは、スケジューリングメッセージを受け取るときに実行レディになる。そうでない場合、スカラ入力に依存するスレッドについてはそのスレッドはVinが設定されるときレディになり、又はグローバルインターコネクト(書き込みスレッド)でベクトルデータが受け取られるまでレディになる。レディスレッドはラウンドロビン順に実行するようにイネーブルされる。
スレッドが実行を開始すると、所与の繰り返し分の全ての伝送が開始されるまで実行を継続し、全ての伝送が開始された時点で、スレッドは明示的タスク切り替え命令によって中断され、その間ハードウェア伝送が完了する。タスク切り替えは、変数割り振り及びフロー分析に依存して、コード生成によって決定される。読み出しスレッドについては、全ての宛先への、全てのベクトル及びスカラの処理クラスタ1400への割り振りは、スレッド中断時点で完了していなければならない(典型的に、これは繰り返し内の任意のコードパスに沿った、最後の割り振りの後である)。タスク切り替え命令は、各宛先への最終伝送のための、Set_Validをアサートさせる(ハードウェアが伝送の数を知っていることに基づく)。書き込みスレッドについては、分析は同様であるが、例外は、割り振りがシステムに対して行なわれ、Set_Validは、明示的には設定されないことである。スレッドが中断されると、ハードウェアは、中断されたスレッドの全てのコンテキストを保存し、次のレディスレッドがある場合は、それをスケジューリングする。
スレッドが中断されると、ハードウェアがそのスレッドによって開始された全てのデータ伝送を完了するまで、中断のままになり得る。これは、以下の伝送条件に依存して幾つかの異なる方法で指示され得る。
− 水平グループ(多数の処理ノードコンテキスト又は単一のSFMコンテキスト)に対して走査線を出力する読み出しスレッドの場合、データ伝送の完了は、右端のコンテキスト又は共有機能メモリ入力への最後の伝送によって指示され、伝送をイネーブルするSP内にRt=1を有するコンテキストへ伝送されるSet_Validフラグによって指示される。
− SFMコンテキストへブロックを出力する読み出しスレッドの場合、ハードウェアは、ラインに似た水平次元の全てのデータを提供し、最終伝送はBlock_Widthによって決定される。明示的ソフトウェア繰り返しが垂直次元のブロックデータを提供する。
− ノード又はSFMコンテキストから入力を受け取る書き込みスレッドの場合、最終データ伝送は、HG_Size又はBlock_Widthにマッチングする伝送のためのSet_Validによって指示される。
スレッドが実行のために再度イネーブルされると、伝送の別のセットを開始するか、又は終了し得る。読み出しスレッドはEND命令の実行によって終了し、その結果、初期宛先IDを使用して、OTe=lを有する全ての宛先にOT信号が送られる。書き込みスレッドは1つ又は複数のソースからOTを受け取るため概して終了するが、END命令を実行するまで、完全に終了したとはみなされない。そのホワイルループは終了するが、プログラムは終了に基づいて後続のホワイルループで継続することが可能である。いずれの例でも、ENDを実行し、全てのデータ伝送が完了し、全てのOTが送信された後、スレッドはスレッド終了メッセージを送り得る。
読み出しスレッドは繰り返しの2つの形式を有し得る。即ち、明示的FORループ又は他の明示的繰り返し、或いは、書き込みスレッドと同様の処理クラスタ1400からのデータ入力でのループ(終了がなければループする)である。第1の例では、任意のスカラ入力は全てのループ繰り返しが実行されるまでリリースされているとはみなされない。スカラ入力はスレッドのための実行の全期間に適用される。第2の例では、各繰り返しの後、(Release_lnputのシグナルが送られて)入力がリリースされ、新しい入力が受け取られるべきであり、スレッドが実行のためにスケジューリングされ得る前に、Vinを設定する。スレッドは、書き込みスレッドと同様、OTの受け取りの後データフロー上で終了する。
GLSプロセッサ5402は、読み出し及び書き込みスレッドの動作に基づいてハードウェア制御をサポートするための専用インタフェースを含み得る。このインタフェースは、GLSデータメモリ5403へのGLSプロセッサ5402の通常のアクセスと、特定の又は特殊化されたアクセスとを区別することを可能にし得る。また、GLSプロセッサ5402にこのインタフェースを制御させるための、以下の命令があり得る。
− ロードシステム(LDSYS)命令。この命令は特定されたシステムアドレスからGLSプロセッサ5402のレジスタをロードし得る。これは概して、ハードウェアに対してターゲットレジスタ及びシステムアドレスを識別する目的のダミーロードであり得る。また、この命令は、Line又はBlockとして処理クラスタ1400に伝送されるべきシステムFrameのためのフォーマッティング情報を含む、GLSデータメモリ5403からの属性ワードにアクセスする。属性アクセスは、GLSプロセッサ5402レジスタをターゲットとしないが、代わりに、この情報をハードウェアレジスタにロードし、ハードウェアがこの伝送を制御できるようにする。最後に、この命令はインターリーブされたFrameフォーマットでアクセスされたピクセルの相対位置をハードウェアに示す3ビットフィールドを含む。
− スカラ及びベクトル出力命令(OUTPUT、VOUTPUT)。これらの命令はGLSプロセッサ5402のレジスタをコンテキスト内にストアし得る。スカラ出力では、GLSプロセッサ5402はデータを直接提供する。ベクトル出力では、これは、(出力を前のLDSYSアドレスに関連付ける)ソースレジスタを識別する目的のため、及び宛先コンテキストにオフセットを指定するための、ダミーストアである。Line又はBlock出力はHG_Size又はBlock_Widthを指定するための関連付けられた垂直インデックスパラメータを有し、それによって、ライン又はブロックに伝送するための(例えば)32ピクセル要素の数をハードウェアが知る。
− ベクトル入力命令(VINPUT)。この命令は、データメモリ5403位置をGLSプロセッサ5402仮想レジスタにロードする。これはデータメモリ5403からの仮想Line又はBlock変数のダミーロードであり、その目的は、ターゲット仮想レジスタ、及び仮想変数のためのデータメモリ5403内のオフセットを識別するためである。Line又はBlock出力はHG_Size又はBlock_Widthを指定するための、関連付けられた垂直インデックスパラメータを有する。それによって、ライン又はブロックに伝送するための(例えば)32ピクセル要素の数をハードウェアが知る。
− ストアシステム(STSYS)命令。この命令は仮想GLSプロセッサ5402レジスタを指定されたシステムアドレスにストアする。これは、(このストアを前のVINPUTオフセットに関連付ける)仮想ソースレジスタを識別し、(通常は、受け取った他の入力とのインターリービングの後)それがストアされるべき箇所のシステムアドレスを指定するためのダミーストアである。また、この命令は、処理クラスタ1400Line又はBlockから伝送されるべきシステムFrameのためのフォーマッティング情報を含む、データメモリ5403からの属性ワードにアクセスする。属性アクセスはGLSプロセッサ5402をターゲットにしないが、代わりに、この情報をハードウェアレジスタにロードして、それによって、ハードウェアがその伝送を制御できるようにする。最後に、命令は、インターリーブされたFrameフォーマットで、アクセスされたピクセルの相対位置をハードウェアに示す3ビットフィールドを含む。
GLSプロセッサ5402のためのデータインタフェースは、以下の情報及び信号を含み得る。
− 以下を指定するアドレスバス。
1)LDSYS及びSTSYS命令のためのシステムアドレス。
2)OUTPUT及びVOUTPUT命令のための処理クラスタ1400オフセット、又は
3)VINPUT命令のためのデータメモリ5403オフセット
これらは、アドレスを提供する命令により区別される。
− 伝送の数を指定し、Line又はBlock伝送のためのアドレスシーケンシングを制御するパラメータHG_Size/Block_Width。
− ロードタイプ又はストアタイプ命令のためのダミーターゲット又はソースである仮想レジスタ識別子。
− OUTPUT及びVOUTPUT命令のための、命令からのDst_Tagのための値。
− データメモリ5403からGLSハードウェアレジスタへフォーマッティング属性をロードするためのストローブ。
− OUTPUT命令に対しスカラ伝送の幅を指示するための、又はVOUTPUT命令に対しノードLine、SFMLine、及びBlock出力を区別するための、2ビットフィールド。ベクトル出力は、データタイプに依存する異なるアドレスシーケンシング及びデータフロープロトコル動作を必要とし得る。また、このフィールドは、ベクトル出力ではBlock_Endを、スカラ及びベクトル出力ではInput_Doneをエンコードする。
− SFMLine入力に対し、環状バッファ内の最後のラインを指定するための信号。これは、Pointer=Buffer_Sizeのときに、環状バッファ垂直インデックスパラメータに基づき、また、LineArray出力に対しFillを信号送信するために用いられる。
− スレッドがアクティブにされるとき、Output_Terminate信号を受け取ったスレッドのためにアサートされるGLSプロセッサ5402への入力。これは、GLSプロセッサ5402条件状態レジスタビットとしてテストされ、アサートされるとスレッドを終了させる。
この例のGLSユニット1408は以下のいずれかの特徴を有し得る。
− 同時に最大8の読み出し及び書き込みスレッドをサポート。
− OCP接続1412は読み出し及び書き込みデータのために、128ビット接続を有し得る(通常の読み出し、書き込みスレッド動作では最大8ビート、構成読み出し動作では16ビートの読み出し)。
− 処理クラスタ1400内でノード/パーティションからデータを送受信するための256ビット、2ビートのバーストインターコネクトマスター及び、256ビット、2ビートのバーストスレーブインタフェース。
− GLSユニット1408が処理クラスタ1400の残りにメッセージを送るための32ビット、32ビート(最大)のメッセージングマスターインタフェース。
− GLSユニット1408が処理クラスタ1400の残りからメッセージを受け取るための32ビット、32ビート(最大)のメッセージングスレーブインタフェース。
− インターコネクト814上のデータアクティビティをモニターし、アクティビティがないときに、制御ノードにシグナルを送って、制御ノードが処理クラスタ1400のサブシステムの電源をダウンすることができるようにするための、インターコネクトモニターブロック。
− システムインタフェース5416上の多数のタグの割り振り及び管理(最大32タグ)。
− 読み出しスレッドデータパス内のデインターリーバ。
− 書き込みパス内のインターリーバ。
− 読み出し及び書き込み双方のスレッドでは、ライン当たり最大8カラー(位置)をサポート。
− 読み出しスレッドに対し、最大8ライン(ピクセル+データ)をサポート。
− 読み出しスレッドに対し、最大4ライン(ピクセル+データ)をサポート。
図9を参照すると、GLSユニット1408のより詳細な例が示されている。図示されるように、GLSユニット1408のコアは、GLSプロセッサ5402であり、これは、様々なスレッドプログラムを走らせ得る。スレッドプログラムは、(概して命令メモリRAM6005及び命令メモリアービタ6006を含む)命令メモリ5405内の様々な位置に、命令として予めロードされ得、スレッドがアクティブのときはいつでも呼び出され得る。スレッド/コンテキストは、読み出しスレッド又は書き込みスレッドがスケジューリングされるときはいつでも、アクティブにされ得る。スレッドは、(マスターメッセージングインタフェース6003及びスレーブメッセージングインタフェース6004を概して含む)メッセージングインタフェース5418を介してGLSユニット1408によって受け取られるメッセージを介して実行するようにスケジューリングされる。
読み出しスレッドデータフローを先ず参照すると、データがOCP接続1412からインターコネクト814へ伝送されるべきとき、読み出しスレッドがGLSユニット1408によって処理される。読み出しスレッドはスケジュール読み出しスレッドメッセージによってスケジューリングされ、スレッドがスケジューリングされると、GLSユニット1408は、スレッドのためのパラメータ(即ち、ピクセルパラメータ)を得るようにGLSプロセッサ5402をトリガし得、データ(即ち、ピクセルデータ)をフェッチするようにOCP接続1412にアクセスし得る。データがフェッチされると、(GLSプロセッサ5402から受け取り)ストアされた構成情報に従ってデインターリーブ及びアップサンプリングされ得、データインターコネクト814を介して適切な宛先に送られる。データフローは、ソース通知、ソース許可、及び出力終了メッセージを使用して、スレッドが終了する(GLSプロセッサ5402によって通知される)まで維持される。スカラデータフローは更新データメモリメッセージを使用して維持される。
もう1つのデータフローは構成読み出しスレッドである。構成読み出しスレッドは、構成データがOCP接続1412からGLS命令メモリ5405に、又は処理クラスタ1400内部の他のモジュールのいずれかに伝送されるべきときに、GLSユニット1408によって処理される。構成読み出しスレッドは、スケジュール構成読み出しメッセージによってスケジューリングされる。メッセージがスケジューリングされると、基本構成情報を得るためにOCP接続1412がアクセスされる。この基本構成情報は、実構成データを得るためにデコードされ、適切な宛先(宛先が処理クラスタ1400内の外部モジュールではデータインターコネクト814を介して)に送られる。
更に別のデータフローは、書き込みスレッドである。書き込みスレッドは、データがデータインターコネクト814からOCP接続1412に伝送されるべきときに、GLSユニット1408によって処理される。書き込みスレッドは、スケジュール書き込みスレッドメッセージによってスケジューリングされ、スレッドがスケジューリングされると、GLSユニット1408は、そのスレッドのためのパラメータ(即ち、ピクセルパラメータ)を得るように、GLSプロセッサ5402をトリガする。その後、GLSユニット1408は、データ(即ち、ピクセルデータ)がデータインターコネクト814を介して到着するのを待ち、データインターコネクト814からのデータが受け取られると、それは、(GLSプロセッサ5402から受け取り)ストアされた構成情報に基づいて、インターリーブ及びダウンサンプリングされ、OCP接続1412に送られる。データフローは、ソース通知、ソース許可、及び出力終了メッセージを使用して、スレッドが終了(GLSプロセッサ5402によって通知されるように)するまで維持される。スカラデータフローは更新データメモリメッセージを使用して維持される。
ここで、(データメモリRAM6007及びデータメモリアービタ6008を概して含む)GLSデータメモリ5403のための編成を参照すると、このメモリ5403は、全てのレジデントスレッドのための、種々の変数、一時変数、及び、レジスタスピル/フィル値をストアするように構成される。また、それは、スレッドコンテキスト記述子及び宛先リスト(ノードの宛先記述子に似ている)を含むスレッドコードから隠されたエリアを有し得る。具体的には、この例の場合、データメモリRAM6007の最初の8個の位置は、16のコンテキスト記述子を保持するように、コンテキスト記述子のために割り当てられる。この例のための、宛先リストは、データメモリRAM6007の次の16個の位置を占有する。更には、各コンテキスト記述子が、他の処理ノード(又は他のスレッド)からのスカラ値に依存するか否か、及びもしそうであれば、スカラデータのためにデータソースが幾つあるかを指定する。この例では、GLSデータメモリ5403の残りは、(変数割り当てを有する)スレッドコンテキストを保持する。
GLSデータメモリ5403は、多数のソースによってアクセスされ得る。多数のソースは、GLSユニット1408のための内部ロジック(即ち、OCP接続1412及びデータインターコネクト814へのインタフェース)、(動作のデバッグモードの間、データメモリ5403コンテンツを変更し得る)GLSプロセッサ5402のためのデバッグロジック、メッセージングインタフェース5418(スレーブメッセージングインタフェース6003及びマスターメッセージングインタフェース6004の両方)、及びGLSプロセッサ5402である。データメモリアービタ6008は、データメモリRAM6007へのアクセスをアービトレート可能である。
ここで、(コンテキスト状態RAM6014及びコンテキスト状態アービタ6015を概して含む)コンテキスト保存メモリ5414を参照すると、このメモリ5414は、GLSユニット1408内でコンテキスト切り替えが行なわれるとき、コンテキスト情報を保存するために、GLSプロセッサ5402によって用いられ得る。コンテキストメモリは、各スレッドのための位置を有する(即ち、合計16がサポートされている)。各コンテキスト保存ラインは、例えば、609ビットであり、各ラインの編成の例は、上で詳しく説明されている。アービタ6015は、GLSプロセッサ5402からのアクセスのためのコンテキスト状態RAM6014へのアクセス、及び(動作のデバッグモードの間、コンテキスト状態メモリRAM6014のコンテンツを変更し得る)GLSプロセッサ5402のためのデバッグロジックをアービトレートする。典型的に、読み出し又は書き込みスレッドがGLSラッパーによってスケジューリングされるときはいつでも、コンテキスト切り替えが起こる。
(命令メモリRAM6005及び命令メモリアービタ6006を概して含む)命令メモリ5405を用いる場合、それはGLSプロセッサ5402のための命令を全てのラインにストアし得る。典型的にアービタ6006は、GLSプロセッサ5402からのアクセスのための命令メモリRAM6005へのアクセス、及び(動作のデバッグモードの間に、命令メモリRAM6005のコンテンツを変更し得る)GLSプロセッサ5402のためのデバッグロジックをアービトレートする。命令メモリ5405は通常、構成読み出しスレッドメッセージの結果として、初期化され、命令メモリ5405が初期化されると、スケジュール読み出しスレッド又は書き込みスレッド内に存在するDestination List Baseアドレスを使用して、プログラムがアクセスされ得る。メッセージ内のアドレスは、コンテキスト切り替えが起こると必ずスレッドのためのアドレスを開始する命令メモリ5405として用いられる。
ここで、(スカラRAM6001及びアービタ6002を概して含む)スカラ出力バッファ5412を参照すると、スカラ出力バッファ5412(及び特に、スカラRAM6001)は、データメモリ更新メッセージを介して、GLSプロセッサ5402及びメッセージングインタフェース5418によって書き込まれるスカラデータをストアし、アービタ6002は、これらのソースをアービトレートし得る。また、スカラ出力バッファ5412の一部として関連ロジックがある。このスカラロジックのためのアーキテクチャが図10に示される。
図10では、読み出しスレッドのためのスカラロジックが従うステップの例が示される。この例では、読み出しスレッドがスケジューリングされるときに起こる2つの並列プロセスステップがある。1つのプロセスでは、スカラ情報を抽出するためにGLSプロセッサ5402がトリガされ、抽出されたスカラ情報がスカラRAM6001に書き込まれる。スカラ情報は、データメモリライン、宛先タグ、スカラデータ、及びHI及びLO情報を典型的に含む。これらは、通常、RAM6001にリニアに書き込まれる。また、スレッドのためのスカラ開始アドレス6028及びスカラ終了アドレス6029も、(カウント6026を介して)メールボックス6013内にラッチされる。GLSプロセッサ5402が、(コンテキスト切り替えによって指示されるように)書き込みプロセスを完了すると、スカラ出力バッファ5412は、(ストアされた宛先タグによって示されるように)スカラRAM6001内の全ての宛先にソース通知メッセージの送信を開始する。更に、スカラロジックは(各スレッドに対し維持され、8個の繰り返しに対し維持され得る)スカラ繰り返しカウンタ6027を含む。繰り返しカウンタ6027は、スレッドがスケジュールされた状態から実行状態へ最初に移動するときに初期化され、GLSプロセッサ5402がトリガされる毎に増分される。
(スカラ−オンリー読み出しスレッドの場合に通常、起こる)この例のもう1つの並列プロセスでは、且つ、(GLSユニット1408によって事前に送られたSRC通知に応答して)スケジュールされた読み出しスレッドに対するSRC許可を受け取るとき、そのメッセージから抽出された情報でメールボックス6013が更新される。なお、ソース通知メッセージは、スカラ−オンリー伝送がイネーブされた読み出しスレッドでは、スカラ出力バッファ5412によって、(例えば)送られ得ることに留意されたい。スカラ及びベクトルの両方がイネーブルされた読み出しスレッドの場合、ソース通知メッセージは送られなくてもよい。次いでソース許可メッセージで送られたDST_TAGがそのスレッドIDのためにストアされた(前のソース通知メッセージがDST_TAGを書き込んでいるであろう)ものとマッチするかを判定するために、ペンディング許可テーブルが読み出され得る。マッチングが得られると、スカラ有限状態機械(FSM)6031のためのそのスレッドのためのペンディング許可テーブルのビットが更新される。次いで、スレッドIDと共に新しい宛先ノード及びセグメントIDでGLSデータメモリ5403が更新される。宛先リストエントリからPINCR値を取得し、それを更新するために、GLSデータメモリ5403が読み出される。スカラ伝送の場合、宛先が送るPINCR値は「0」になると推測される。次いで、スレッドIDと、それが左端のスレッドであるか否かを示す状態表示と共に、スレッドID先入れ先出しメモリ(FIFO)6030内にラッチされる。
これで、GLSユニット1408は、スカラデータを宛先に伝送するための許可を有する。ラッチされたスレッドIDを抽出するためにスレッドFIFO6030が読み出される。抽出されたスレッドIDは宛先タグとともに、スカラRAM6001から適切なデータをフェッチするためのインデックスとして用いられる。データが読み出されると、データ内に存在する宛先インデックスが、抽出され、リクエストキュー内にストアされた宛先タグとマッチングされる。マッチングが得られると、メールボックス6013にインデックスをつけ、GLSデータメモリ5403宛先アドレスをフェッチするために、抽出されたスレッドIDが使用される。次いで、マッチングされたDST_TAGは、GLSデータメモリ5403への最終アドレスを決定するために、GLSデータメモリ5403宛先アドレスに追加される。次いで、宛先リストエントリをフェッチするために、GLSデータメモリ5403がアクセスされる。GLSユニット1408は、更新GLSデータメモリ5403メッセージを、(GLSデータメモリ5403から抽出されたnode id、seg IDによって識別される)宛先ノードへ、スカラRAM6001からのデータを用い、送信する。繰り返しのための全体のデータが送られるまでこれが繰り返される。スレッドのためのデータの終わりに到達すると、GLSユニット1408は、次のスレッドIDに移動し(そのスレッドが、アクティブとして、FIFOに入れられた場合)、また、グローバルインターコネクトロジックに、スレッドの終了に到達したことを示す。スカラデータは、出力命令を用いて、GLSプロセッサ5402によって書き込まれる。
実行に含まれるスカラデータは、プログラム自体から、又はOCP接続1412を介して周辺装置1414から、又はスカラ依存性がイネーブルされている場合、更新データメモリ更新メッセージを介して、処理クラスタ1400内の他のブロックから、のいずれかである。スカラがGLSプロセッサ5402によって、OCP接続1412からフェッチされるときは、それは、そのデータメモリアドレスラインに(例えば)0−>1Mのアドレスを送るであろう。GLSユニット1408は、そのアクセスを、OCP接続1412マスター読み出しアクセス(即ち、1ワードのバースト)に変換する。GLSユニット1408がそのワードを読み出すと、データをスカラRAM6001に送るGLSプロセッサ5402(即ち、32ビットであり、どの32ビットかはGLSプロセッサ5402によって送られるアドレスに依存する)にそれを送る。
スカラデータが別の処理クラスタ1400モジュールから受け取られるべきケースでは、そのスレッドのためのコンテキスト記述子内にスカラ依存性ビットが設定される。入力依存性ビットが設定されるとき、スカラデータを送るであろうソースの数も、同じ記述子の中に設定される。GLSユニット1408が、全てのソースからの及びGLSデータメモリ5403にストアされたスカラデータを受け取ると、スカラ依存性が満たされる。スカラ依存性が満たされると、GLSプロセッサ5402がトリガされる。この時点で、GLSプロセッサ5402は、ストアされたデータを読み出し、(通常は、読み出しスレッドのための)OUTPUT命令を用いて、スカラRAM6001に書き込む。
また、GLSプロセッサ5402は、OCP接続1412にデータ(又は任意のデータ)を書き込むことを選択してもよい。データが、GLSプロセッサ1408によってOCP接続1412に書き込まれるべきときは、それは、GLSデータメモリ5403アドレスラインのアドレス(例えば)0−>1Mを送るであろう。GLSユニット1408は、そのアクセスをOCP接続マスター書き込みアクセス(即ち、1ワードのバースト)に変換し、(例えば)32ビットをOCP接続1412に書き込む。
GLSユニット1408内のメールボックス6013は、メッセージング、スキャナ、及びデータパス間の情報フローを扱うために使用され得る。スケジュール読み出しスレッド、スケジュール構成読み出しスレッド、又はスケジュール書き込みスレッドメッセージがGLSユニット1408によって受け取られるとき、メッセージから抽出された値がメールボックス6013内にストアされる。次いで、対応するスレッドがスケジュールされた状態に置かれ(スケジュール読み出しスレッド、又はスケジュール書き込みスレッドの場合)、それによってスキャナがそれを、GLSプロセッサ5402をトリガするための実行状態へ移動し得る。また、メールボックス6013は、GLSユニット1408によって使用されるべき、ソース通知メッセージ(書き込みスレッドの場合)、ソース許可メッセージ(読み出しスレッドの場合)からの値をラッチする。GLSユニット1408内の種々の内部ブロック間の相互作用は、(例えば、図10に示すような)様々な時点で、メールボックス6007を更新する。
イングレスメッセージプロセッサ6010は、制御ノード1406から受け取るメッセージを扱う。表1は、GLSユニット1408によって受け取られるメッセージのリストを示す。GLSは、処理クラスタ1400サブシステム内で、Seg_ID、Node_IDをそれぞれ{3、1}としてアクセスされ得る。
本発明が関連する分野の当業者であれば、本発明の特許請求の範囲から逸脱することなく、説明した実施形態への変更、及び追加の実施形態が可能であることが理解されるであろう。

Claims (12)

  1. 装置であって、
    メッセージバス(1420)と、
    データバス(1422)と、
    ロード/ストアユニット(1408)と、
    を特徴とし、
    前記ロード/ストアユニットが、
    システムメモリ(1416)と通信するように構成されるシステムインタフェース(5416)と、
    前記データバスに結合されるデータインタフェース(5420)と、
    前記メッセージバスに結合されるメッセージインタフェース(5418)と、
    命令メモリ(5405)と、
    データメモリ(5403)と、
    前記データインタフェースに結合されるバッファ(5406)と;
    前記メッセージインタフェースに結合されるスレッドスケジューリング回路要素(5401、5404)と、
    前記データメモリ、前記バッファ、前記命令メモリ、前記スレッドスケジューリング回路要素、及び前記システムインタフェースに結合されるプロセッサ(5402)と、
    を有する、
    装置
  2. 請求項1に記載の装置であって、前記ロード/ストアユニットが、前記プロセッサに結合され、且つ、中断されたスレッドのためのレジスタ状態をストアするように構成される保存/復元メモリ(5414)を更に特徴とする装置。
  3. 請求項1又は2に記載の装置であって、前記ロード/ストアユニットが、処理回路要素変数のためのアドレスが生成され得るように、処理回路要素(1402−1〜1402−R)のためのアドレッシングモードを複製するように構成される前記プロセッサを更に特徴とする装置。
  4. 請求項1、2又は3に記載の装置であって、前記ロード/ストアユニットが、前記メッセージインタフェースと前記プロセッサとの間に結合されるスカラ出力バッファ(5412)を更に特徴とする装置。
  5. 請求項1、2、3、又は4に記載の装置であって、
    前記ロード/ストアユニットが、前記ロード/ストアユニットが前記処理回路要素のためのデータ構造をシステムメモリ(1416)からリトリーブするように、構成読み出しスレッドを実装するように構成され、
    前記データ構造が、並列化シリアルプログラムのために、前記処理回路要素の計算及びメモリリソースに少なくとも部分的に基づく、
    装置。
  6. システムであって、
    システムメモリ(1416)と、
    前記システムメモリに結合される処理クラスタと、
    を特徴とし、
    前記処理クラスタが、
    メッセージバス(1420)と、
    データバス(1422)と、
    パーティション(1402−1〜1402−R)に配される複数の処理ノード(808−1〜808−N)であって、各パーティションが前記データバス(1422)に結合されるバスインタフェースユニット(4710−1〜4710−R)を有し、各処理ノードが前記メッセージバスに結合される、前記複数の処理ノードと、
    前記メッセージバスに結合される制御ノード(1406)と、
    ロード/ストアユニット(1408)と、
    を含み、
    前記ロード/ストアユニットが、
    システムメモリ(1416)と通信するように構成されるシステムインタフェース(5416)と、
    前記データバスに結合されるデータインタフェース(5420)と、
    前記メッセージバスに結合されるメッセージインタフェース(5418)と、
    命令メモリ(5405)と、
    データメモリ(5403)と、
    前記データインタフェースに結合されるバッファ(5406)と、
    前記メッセージインタフェースに結合されるスレッドスケジューリング回路要素(5401、5404)と、
    前記データメモリ、前記バッファ、前記命令メモリ、前記スレッドスケジューリング回路要素、及び前記システムインタフェースに結合されるプロセッサ(5402)と、
    を有する、
    システム。
  7. 請求項6に記載のシステムであって、前記ロード/ストアユニットが、前記プロセッサに結合され、且つ、中断されたスレッドのためのレジスタ状態をストアするように構成される保存/復元メモリ(5414)を更に特徴とする、システム。
  8. 請求項6又は7に記載のシステムであって、前記ロード/ストアユニットが、処理回路要素変数のためのアドレスが生成され得るように、処理回路要素(1402−1〜1402−R)のためのアドレッシングモードを複製するように構成される前記プロセッサを更に特徴とするシステム。
  9. 請求項6、7又は8に記載のシステムであって、前記ロード/ストアユニットが、前記メッセージインタフェースと前記プロセッサとの間に結合されるスカラ出力バッファ(5412)を更に特徴とするシステム。
  10. 請求項6、7、8又は9に記載のシステムであって、
    前記ロード/ストアユニットが、前記ロード/ストアユニットがシステムメモリ(1416)から前記処理回路要素のためのデータ構造をリトリーブするように、構成読み出しスレッドを実装するように構成され、
    前記データ構造が、少なくとも部分的に並列化シリアルプログラムのための前記処理回路要素の計算及びメモリリソースに基づく、
    システム。
  11. 請求項6、7、8、9又は10に記載のシステムであって、前記システムが、前記データバスと前記データインタフェースとの間に結合されるデータインターコネクト(814)を更に特徴とするシステム。
  12. 請求項6、7、8、9、10又は11に記載のシステムであって、前記システムが、
    前記制御ノード及び前記システムインタフェースに結合されるシステムバス(1326、1328)と、
    前記システムメモリ及び前記システムバスに結合されるメモリコントローラ(1304)と、
    前記システムバスに結合されるホストプロセッサ(1316)と、
    を更に特徴とするシステム。
JP2013540061A 2010-11-18 2011-11-18 処理クラスタのためのロード/ストア回路要素 Active JP6096120B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US41521010P 2010-11-18 2010-11-18
US41520510P 2010-11-18 2010-11-18
US61/415,210 2010-11-18
US61/415,205 2010-11-18
US13/232,774 US9552206B2 (en) 2010-11-18 2011-09-14 Integrated circuit with control node circuitry and processing circuitry
US13/232,774 2011-09-14
PCT/US2011/061444 WO2012068486A2 (en) 2010-11-18 2011-11-18 Load/store circuitry for a processing cluster

Publications (3)

Publication Number Publication Date
JP2014500549A true JP2014500549A (ja) 2014-01-09
JP2014500549A5 JP2014500549A5 (ja) 2016-03-03
JP6096120B2 JP6096120B2 (ja) 2017-03-15

Family

ID=46065497

Family Applications (9)

Application Number Title Priority Date Filing Date
JP2013540065A Pending JP2014501007A (ja) 2010-11-18 2011-11-18 汎用レジスタファイルからsimdレジスタファイルへデータを移動させるための方法及び装置
JP2013540064A Pending JP2014501969A (ja) 2010-11-18 2011-11-18 コンテキスト切替え方法及び装置
JP2013540061A Active JP6096120B2 (ja) 2010-11-18 2011-11-18 処理クラスタのためのロード/ストア回路要素
JP2013540058A Pending JP2014505916A (ja) 2010-11-18 2011-11-18 Simdレジスタファイルから汎用レジスタファイルへデータを移動させるための方法及び装置
JP2013540059A Active JP5989656B2 (ja) 2010-11-18 2011-11-18 処理クラスタ用の共有機能メモリ回路要素
JP2013540048A Active JP5859017B2 (ja) 2010-11-18 2011-11-18 処理クラスタのための制御ノード
JP2013540069A Pending JP2014501008A (ja) 2010-11-18 2011-11-18 データを移動させるための方法及び装置
JP2013540074A Pending JP2014501009A (ja) 2010-11-18 2011-11-18 データを移動させるための方法及び装置
JP2016024486A Active JP6243935B2 (ja) 2010-11-18 2016-02-12 コンテキスト切替方法及び装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2013540065A Pending JP2014501007A (ja) 2010-11-18 2011-11-18 汎用レジスタファイルからsimdレジスタファイルへデータを移動させるための方法及び装置
JP2013540064A Pending JP2014501969A (ja) 2010-11-18 2011-11-18 コンテキスト切替え方法及び装置

Family Applications After (6)

Application Number Title Priority Date Filing Date
JP2013540058A Pending JP2014505916A (ja) 2010-11-18 2011-11-18 Simdレジスタファイルから汎用レジスタファイルへデータを移動させるための方法及び装置
JP2013540059A Active JP5989656B2 (ja) 2010-11-18 2011-11-18 処理クラスタ用の共有機能メモリ回路要素
JP2013540048A Active JP5859017B2 (ja) 2010-11-18 2011-11-18 処理クラスタのための制御ノード
JP2013540069A Pending JP2014501008A (ja) 2010-11-18 2011-11-18 データを移動させるための方法及び装置
JP2013540074A Pending JP2014501009A (ja) 2010-11-18 2011-11-18 データを移動させるための方法及び装置
JP2016024486A Active JP6243935B2 (ja) 2010-11-18 2016-02-12 コンテキスト切替方法及び装置

Country Status (4)

Country Link
US (1) US9552206B2 (ja)
JP (9) JP2014501007A (ja)
CN (8) CN103221936B (ja)
WO (8) WO2012068486A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014501009A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 データを移動させるための方法及び装置
KR20170052382A (ko) * 2015-11-04 2017-05-12 삼성전자주식회사 데이터를 병렬 처리하는 방법 및 이를 위한 장치
WO2021157315A1 (ja) * 2020-02-05 2021-08-12 株式会社ソニー・インタラクティブエンタテインメント グラフィックプロセッサ及び情報処理システム

Families Citing this family (228)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844687B1 (en) * 1999-10-06 2010-11-30 Gelvin David C Method for internetworked hybrid wireless integrated network sensors (WINS)
US9710384B2 (en) 2008-01-04 2017-07-18 Micron Technology, Inc. Microprocessor architecture having alternative memory access paths
US8397088B1 (en) 2009-07-21 2013-03-12 The Research Foundation Of State University Of New York Apparatus and method for efficient estimation of the energy dissipation of processor based systems
US8446824B2 (en) * 2009-12-17 2013-05-21 Intel Corporation NUMA-aware scaling for network devices
US9003414B2 (en) * 2010-10-08 2015-04-07 Hitachi, Ltd. Storage management computer and method for avoiding conflict by adjusting the task starting time and switching the order of task execution
KR20120066305A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 비디오 움직임 예측 및 보상용 캐싱 장치 및 방법
WO2012103383A2 (en) * 2011-01-26 2012-08-02 Zenith Investments Llc External contact connector
US8918791B1 (en) * 2011-03-10 2014-12-23 Applied Micro Circuits Corporation Method and system for queuing a request by a processor to access a shared resource and granting access in accordance with an embedded lock ID
KR101215152B1 (ko) * 2011-04-21 2012-12-24 한양대학교 산학협력단 인루프 필터링을 적용한 예측 방법을 이용한 영상 부호화/복호화 방법 및 장치
US20130060555A1 (en) * 2011-06-10 2013-03-07 Qualcomm Incorporated System and Apparatus Modeling Processor Workloads Using Virtual Pulse Chains
US9086883B2 (en) 2011-06-10 2015-07-21 Qualcomm Incorporated System and apparatus for consolidated dynamic frequency/voltage control
US8656376B2 (en) * 2011-09-01 2014-02-18 National Tsing Hua University Compiler for providing intrinsic supports for VLIW PAC processors with distributed register files and method thereof
CN102331961B (zh) * 2011-09-13 2014-02-19 华为技术有限公司 并行模拟多个处理器的方法及系统、调度器
US20130077690A1 (en) * 2011-09-23 2013-03-28 Qualcomm Incorporated Firmware-Based Multi-Threaded Video Decoding
KR101859188B1 (ko) * 2011-09-26 2018-06-29 삼성전자주식회사 매니코어 시스템에서의 파티션 스케줄링 장치 및 방법
EP2783284B1 (en) 2011-11-22 2019-03-13 Solano Labs, Inc. System of distributed software quality improvement
JP5915116B2 (ja) * 2011-11-24 2016-05-11 富士通株式会社 ストレージシステム、ストレージ装置、システム制御プログラムおよびシステム制御方法
US9268626B2 (en) * 2011-12-23 2016-02-23 Intel Corporation Apparatus and method for vectorization with speculation support
WO2013106210A1 (en) * 2012-01-10 2013-07-18 Intel Corporation Electronic apparatus having parallel memory banks
US8639894B2 (en) * 2012-01-27 2014-01-28 Comcast Cable Communications, Llc Efficient read and write operations
GB201204687D0 (en) 2012-03-16 2012-05-02 Microsoft Corp Communication privacy
US9396020B2 (en) * 2012-03-30 2016-07-19 Intel Corporation Context switching mechanism for a processing core having a general purpose CPU core and a tightly coupled accelerator
US10430190B2 (en) * 2012-06-07 2019-10-01 Micron Technology, Inc. Systems and methods for selectively controlling multithreaded execution of executable code segments
US9740549B2 (en) 2012-06-15 2017-08-22 International Business Machines Corporation Facilitating transaction completion subsequent to repeated aborts of the transaction
US9336046B2 (en) 2012-06-15 2016-05-10 International Business Machines Corporation Transaction abort processing
US9348642B2 (en) 2012-06-15 2016-05-24 International Business Machines Corporation Transaction begin/end instructions
US9448796B2 (en) 2012-06-15 2016-09-20 International Business Machines Corporation Restricted instructions in transactional execution
US8682877B2 (en) 2012-06-15 2014-03-25 International Business Machines Corporation Constrained transaction execution
US9384004B2 (en) 2012-06-15 2016-07-05 International Business Machines Corporation Randomized testing within transactional execution
US10437602B2 (en) 2012-06-15 2019-10-08 International Business Machines Corporation Program interruption filtering in transactional execution
US9772854B2 (en) 2012-06-15 2017-09-26 International Business Machines Corporation Selectively controlling instruction execution in transactional processing
US8688661B2 (en) 2012-06-15 2014-04-01 International Business Machines Corporation Transactional processing
US9436477B2 (en) * 2012-06-15 2016-09-06 International Business Machines Corporation Transaction abort instruction
US9442737B2 (en) 2012-06-15 2016-09-13 International Business Machines Corporation Restricting processing within a processor to facilitate transaction completion
US9317460B2 (en) 2012-06-15 2016-04-19 International Business Machines Corporation Program event recording within a transactional environment
US9367323B2 (en) 2012-06-15 2016-06-14 International Business Machines Corporation Processor assist facility
US9361115B2 (en) 2012-06-15 2016-06-07 International Business Machines Corporation Saving/restoring selected registers in transactional processing
US20130339680A1 (en) 2012-06-15 2013-12-19 International Business Machines Corporation Nontransactional store instruction
US10223246B2 (en) * 2012-07-30 2019-03-05 Infosys Limited System and method for functional test case generation of end-to-end business process models
US10154177B2 (en) 2012-10-04 2018-12-11 Cognex Corporation Symbology reader with multi-core processor
US9747107B2 (en) 2012-11-05 2017-08-29 Nvidia Corporation System and method for compiling or runtime executing a fork-join data parallel program with function calls on a single-instruction-multiple-thread processor
CN104813306B (zh) * 2012-11-21 2017-07-04 相干逻辑公司 具有散布处理器dma‑fifo的处理系统
US10140129B2 (en) 2012-12-28 2018-11-27 Intel Corporation Processing core having shared front end unit
US9804839B2 (en) * 2012-12-28 2017-10-31 Intel Corporation Instruction for determining histograms
US9417873B2 (en) 2012-12-28 2016-08-16 Intel Corporation Apparatus and method for a hybrid latency-throughput processor
US9361116B2 (en) * 2012-12-28 2016-06-07 Intel Corporation Apparatus and method for low-latency invocation of accelerators
US10346195B2 (en) 2012-12-29 2019-07-09 Intel Corporation Apparatus and method for invocation of a multi threaded accelerator
US11163736B2 (en) * 2013-03-04 2021-11-02 Avaya Inc. System and method for in-memory indexing of data
US9400611B1 (en) * 2013-03-13 2016-07-26 Emc Corporation Data migration in cluster environment using host copy and changed block tracking
US9582320B2 (en) * 2013-03-14 2017-02-28 Nxp Usa, Inc. Computer systems and methods with resource transfer hint instruction
US9158698B2 (en) 2013-03-15 2015-10-13 International Business Machines Corporation Dynamically removing entries from an executing queue
US9471521B2 (en) * 2013-05-15 2016-10-18 Stmicroelectronics S.R.L. Communication system for interfacing a plurality of transmission circuits with an interconnection network, and corresponding integrated circuit
US9244810B2 (en) 2013-05-23 2016-01-26 Nvidia Corporation Debugger graphical user interface system, method, and computer program product
US8943448B2 (en) * 2013-05-23 2015-01-27 Nvidia Corporation System, method, and computer program product for providing a debugger using a common hardware database
WO2014189529A1 (en) * 2013-05-24 2014-11-27 Empire Technology Development, Llc Datacenter application packages with hardware accelerators
US9224169B2 (en) * 2013-05-28 2015-12-29 Rivada Networks, Llc Interfacing between a dynamic spectrum policy controller and a dynamic spectrum controller
US9910816B2 (en) * 2013-07-22 2018-03-06 Futurewei Technologies, Inc. Scalable direct inter-node communication over peripheral component interconnect-express (PCIe)
US9882984B2 (en) 2013-08-02 2018-01-30 International Business Machines Corporation Cache migration management in a virtualized distributed computing system
US10373301B2 (en) * 2013-09-25 2019-08-06 Sikorsky Aircraft Corporation Structural hot spot and critical location monitoring system and method
US8914757B1 (en) * 2013-10-02 2014-12-16 International Business Machines Corporation Explaining illegal combinations in combinatorial models
GB2519108A (en) 2013-10-09 2015-04-15 Advanced Risc Mach Ltd A data processing apparatus and method for controlling performance of speculative vector operations
GB2519107B (en) * 2013-10-09 2020-05-13 Advanced Risc Mach Ltd A data processing apparatus and method for performing speculative vector access operations
US9740854B2 (en) * 2013-10-25 2017-08-22 Red Hat, Inc. System and method for code protection
US10185604B2 (en) * 2013-10-31 2019-01-22 Advanced Micro Devices, Inc. Methods and apparatus for software chaining of co-processor commands before submission to a command queue
US9727611B2 (en) * 2013-11-08 2017-08-08 Samsung Electronics Co., Ltd. Hybrid buffer management scheme for immutable pages
US10191765B2 (en) * 2013-11-22 2019-01-29 Sap Se Transaction commit operations with thread decoupling and grouping of I/O requests
US9495312B2 (en) 2013-12-20 2016-11-15 International Business Machines Corporation Determining command rate based on dropped commands
US9552221B1 (en) * 2013-12-23 2017-01-24 Google Inc. Monitoring application execution using probe and profiling modules to collect timing and dependency information
CN105814537B (zh) 2013-12-27 2019-07-09 英特尔公司 可扩展输入/输出系统和技术
US9307057B2 (en) * 2014-01-08 2016-04-05 Cavium, Inc. Methods and systems for resource management in a single instruction multiple data packet parsing cluster
US9509769B2 (en) * 2014-02-28 2016-11-29 Sap Se Reflecting data modification requests in an offline environment
US9720991B2 (en) * 2014-03-04 2017-08-01 Microsoft Technology Licensing, Llc Seamless data migration across databases
US9697100B2 (en) 2014-03-10 2017-07-04 Accenture Global Services Limited Event correlation
GB2524063B (en) 2014-03-13 2020-07-01 Advanced Risc Mach Ltd Data processing apparatus for executing an access instruction for N threads
JP6183251B2 (ja) * 2014-03-14 2017-08-23 株式会社デンソー 電子制御装置
US9268597B2 (en) * 2014-04-01 2016-02-23 Google Inc. Incremental parallel processing of data
US9607073B2 (en) * 2014-04-17 2017-03-28 Ab Initio Technology Llc Processing data from multiple sources
US10102211B2 (en) * 2014-04-18 2018-10-16 Oracle International Corporation Systems and methods for multi-threaded shadow migration
US9400654B2 (en) * 2014-06-27 2016-07-26 Freescale Semiconductor, Inc. System on a chip with managing processor and method therefor
CN104125283B (zh) * 2014-07-30 2017-10-03 中国银行股份有限公司 一种用于集群的消息队列接收方法及系统
US9787564B2 (en) * 2014-08-04 2017-10-10 Cisco Technology, Inc. Algorithm for latency saving calculation in a piped message protocol on proxy caching engine
US9313266B2 (en) * 2014-08-08 2016-04-12 Sas Institute, Inc. Dynamic assignment of transfers of blocks of data
US9910650B2 (en) * 2014-09-25 2018-03-06 Intel Corporation Method and apparatus for approximating detection of overlaps between memory ranges
US9501420B2 (en) 2014-10-22 2016-11-22 Netapp, Inc. Cache optimization technique for large working data sets
WO2016071730A2 (es) * 2014-11-06 2016-05-12 Appriz Incorporated Aplicación móvil y solución de interacción financiera en dos vías con alertas y notificaciones personalizadas
US9697151B2 (en) 2014-11-19 2017-07-04 Nxp Usa, Inc. Message filtering in a data processing system
US9727500B2 (en) 2014-11-19 2017-08-08 Nxp Usa, Inc. Message filtering in a data processing system
US9727679B2 (en) * 2014-12-20 2017-08-08 Intel Corporation System on chip configuration metadata
US9851970B2 (en) * 2014-12-23 2017-12-26 Intel Corporation Method and apparatus for performing reduction operations on a set of vector elements
US9880953B2 (en) * 2015-01-05 2018-01-30 Tuxera Corporation Systems and methods for network I/O based interrupt steering
US9286196B1 (en) * 2015-01-08 2016-03-15 Arm Limited Program execution optimization using uniform variable identification
EP3245474A4 (en) 2015-01-13 2018-07-04 Sikorsky Aircraft Corporation Structural health monitoring employing physics models
US20160219101A1 (en) * 2015-01-23 2016-07-28 Tieto Oyj Migrating an application providing latency critical service
US9547881B2 (en) * 2015-01-29 2017-01-17 Qualcomm Incorporated Systems and methods for calculating a feature descriptor
WO2016123808A1 (zh) * 2015-02-06 2016-08-11 华为技术有限公司 数据处理系统、计算节点和数据处理的方法
US9785413B2 (en) * 2015-03-06 2017-10-10 Intel Corporation Methods and apparatus to eliminate partial-redundant vector loads
JP6427053B2 (ja) * 2015-03-31 2018-11-21 株式会社デンソー 並列化コンパイル方法、及び並列化コンパイラ
US10095479B2 (en) * 2015-04-23 2018-10-09 Google Llc Virtual image processor instruction set architecture (ISA) and memory model and exemplary target hardware having a two-dimensional shift array structure
US10372616B2 (en) 2015-06-03 2019-08-06 Renesas Electronics America Inc. Microcontroller performing address translations using address offsets in memory where selected absolute addressing based programs are stored
US9923965B2 (en) 2015-06-05 2018-03-20 International Business Machines Corporation Storage mirroring over wide area network circuits with dynamic on-demand capacity
US10409599B2 (en) 2015-06-26 2019-09-10 Microsoft Technology Licensing, Llc Decoding information about a group of instructions including a size of the group of instructions
US10409606B2 (en) 2015-06-26 2019-09-10 Microsoft Technology Licensing, Llc Verifying branch targets
US10191747B2 (en) 2015-06-26 2019-01-29 Microsoft Technology Licensing, Llc Locking operand values for groups of instructions executed atomically
CN106293893B (zh) 2015-06-26 2019-12-06 阿里巴巴集团控股有限公司 作业调度方法、装置及分布式系统
US10169044B2 (en) 2015-06-26 2019-01-01 Microsoft Technology Licensing, Llc Processing an encoding format field to interpret header information regarding a group of instructions
US10175988B2 (en) 2015-06-26 2019-01-08 Microsoft Technology Licensing, Llc Explicit instruction scheduler state information for a processor
US10346168B2 (en) 2015-06-26 2019-07-09 Microsoft Technology Licensing, Llc Decoupled processor instruction window and operand buffer
US10459723B2 (en) 2015-07-20 2019-10-29 Qualcomm Incorporated SIMD instructions for multi-stage cube networks
US9930498B2 (en) * 2015-07-31 2018-03-27 Qualcomm Incorporated Techniques for multimedia broadcast multicast service transmissions in unlicensed spectrum
US20170054449A1 (en) * 2015-08-19 2017-02-23 Texas Instruments Incorporated Method and System for Compression of Radar Signals
US10613949B2 (en) 2015-09-24 2020-04-07 Hewlett Packard Enterprise Development Lp Failure indication in shared memory
US20170104733A1 (en) * 2015-10-09 2017-04-13 Intel Corporation Device, system and method for low speed communication of sensor information
US9898325B2 (en) * 2015-10-20 2018-02-20 Vmware, Inc. Configuration settings for configurable virtual components
US20170116154A1 (en) * 2015-10-23 2017-04-27 The Intellisis Corporation Register communication in a network-on-a-chip architecture
CN106648563B (zh) * 2015-10-30 2021-03-23 阿里巴巴集团控股有限公司 应用程序中共享模块的依赖解耦处理方法和装置
US9977619B2 (en) 2015-11-06 2018-05-22 Vivante Corporation Transfer descriptor for memory access commands
US9923784B2 (en) 2015-11-25 2018-03-20 International Business Machines Corporation Data transfer using flexible dynamic elastic network service provider relationships
US10216441B2 (en) 2015-11-25 2019-02-26 International Business Machines Corporation Dynamic quality of service for storage I/O port allocation
US9923839B2 (en) * 2015-11-25 2018-03-20 International Business Machines Corporation Configuring resources to exploit elastic network capability
US10177993B2 (en) 2015-11-25 2019-01-08 International Business Machines Corporation Event-based data transfer scheduling using elastic network optimization criteria
US10581680B2 (en) 2015-11-25 2020-03-03 International Business Machines Corporation Dynamic configuration of network features
US10057327B2 (en) 2015-11-25 2018-08-21 International Business Machines Corporation Controlled transfer of data over an elastic network
US10642617B2 (en) * 2015-12-08 2020-05-05 Via Alliance Semiconductor Co., Ltd. Processor with an expandable instruction set architecture for dynamically configuring execution resources
US10180829B2 (en) * 2015-12-15 2019-01-15 Nxp Usa, Inc. System and method for modulo addressing vectorization with invariant code motion
US20170177349A1 (en) * 2015-12-21 2017-06-22 Intel Corporation Instructions and Logic for Load-Indices-and-Prefetch-Gathers Operations
CN107015931A (zh) * 2016-01-27 2017-08-04 三星电子株式会社 用于中断处理的方法和加速器单元
CN105760321B (zh) * 2016-02-29 2019-08-13 福州瑞芯微电子股份有限公司 SOC芯片的debug时钟域电路
US20210049292A1 (en) * 2016-03-07 2021-02-18 Crowdstrike, Inc. Hypervisor-Based Interception of Memory and Register Accesses
GB2548601B (en) * 2016-03-23 2019-02-13 Advanced Risc Mach Ltd Processing vector instructions
EP3226184A1 (en) * 2016-03-30 2017-10-04 Tata Consultancy Services Limited Systems and methods for determining and rectifying events in processes
US9967539B2 (en) * 2016-06-03 2018-05-08 Samsung Electronics Co., Ltd. Timestamp error correction with double readout for the 3D camera with epipolar line laser point scanning
US20170364334A1 (en) * 2016-06-21 2017-12-21 Atti Liu Method and Apparatus of Read and Write for the Purpose of Computing
US10797941B2 (en) * 2016-07-13 2020-10-06 Cisco Technology, Inc. Determining network element analytics and networking recommendations based thereon
CN107832005B (zh) * 2016-08-29 2021-02-26 鸿富锦精密电子(天津)有限公司 分布式数据存取系统及方法
US10353711B2 (en) 2016-09-06 2019-07-16 Apple Inc. Clause chaining for clause-based instruction execution
KR102247529B1 (ko) * 2016-09-06 2021-05-03 삼성전자주식회사 전자 장치, 재구성 가능 프로세서 및 그 제어 방법들
US10909077B2 (en) * 2016-09-29 2021-02-02 Paypal, Inc. File slack leveraging
CN110088737A (zh) * 2016-10-25 2019-08-02 重构.Io有限公司 将并发程序转换为可部署在基于fpga的云基础设施上的硬件的综合路径
US10423446B2 (en) * 2016-11-28 2019-09-24 Arm Limited Data processing
KR102659495B1 (ko) * 2016-12-02 2024-04-22 삼성전자주식회사 벡터 프로세서 및 그 제어 방법
GB2558220B (en) * 2016-12-22 2019-05-15 Advanced Risc Mach Ltd Vector generating instruction
CN108616905B (zh) * 2016-12-28 2021-03-19 大唐移动通信设备有限公司 基于蜂窝的窄带物联网中用户平面优化方法和系统
US10268558B2 (en) 2017-01-13 2019-04-23 Microsoft Technology Licensing, Llc Efficient breakpoint detection via caches
US10671395B2 (en) * 2017-02-13 2020-06-02 The King Abdulaziz City for Science and Technology—KACST Application specific instruction-set processor (ASIP) for simultaneously executing a plurality of operations using a long instruction word
US11157801B2 (en) * 2017-02-28 2021-10-26 Microsoft Technology Licensing, Llc Neural network processing with the neural network model pinned to on-chip memories of hardware nodes
US10169196B2 (en) * 2017-03-20 2019-01-01 Microsoft Technology Licensing, Llc Enabling breakpoints on entire data structures
US10360045B2 (en) * 2017-04-25 2019-07-23 Sandisk Technologies Llc Event-driven schemes for determining suspend/resume periods
US10552206B2 (en) * 2017-05-23 2020-02-04 Ge Aviation Systems Llc Contextual awareness associated with resources
US20180349137A1 (en) * 2017-06-05 2018-12-06 Intel Corporation Reconfiguring a processor without a system reset
US11021944B2 (en) 2017-06-13 2021-06-01 Schlumberger Technology Corporation Well construction communication and control
US20180359130A1 (en) * 2017-06-13 2018-12-13 Schlumberger Technology Corporation Well Construction Communication and Control
US11143010B2 (en) 2017-06-13 2021-10-12 Schlumberger Technology Corporation Well construction communication and control
US10599617B2 (en) * 2017-06-29 2020-03-24 Intel Corporation Methods and apparatus to modify a binary file for scalable dependency loading on distributed computing systems
WO2019005165A1 (en) 2017-06-30 2019-01-03 Intel Corporation METHOD AND APPARATUS FOR VECTORIZING INDIRECT UPDATING BUCKLES
CN111316234B (zh) * 2017-09-12 2024-03-12 恩倍科微公司 极低功率微控制器系统
US10884929B2 (en) 2017-09-19 2021-01-05 International Business Machines Corporation Set table of contents (TOC) register instruction
US10713050B2 (en) 2017-09-19 2020-07-14 International Business Machines Corporation Replacing Table of Contents (TOC)-setting instructions in code with TOC predicting instructions
US11061575B2 (en) * 2017-09-19 2021-07-13 International Business Machines Corporation Read-only table of contents register
US10620955B2 (en) 2017-09-19 2020-04-14 International Business Machines Corporation Predicting a table of contents pointer value responsive to branching to a subroutine
US10725918B2 (en) 2017-09-19 2020-07-28 International Business Machines Corporation Table of contents cache entry having a pointer for a range of addresses
US10896030B2 (en) 2017-09-19 2021-01-19 International Business Machines Corporation Code generation relating to providing table of contents pointer values
US10705973B2 (en) 2017-09-19 2020-07-07 International Business Machines Corporation Initializing a data structure for use in predicting table of contents pointer values
US10761970B2 (en) * 2017-10-20 2020-09-01 International Business Machines Corporation Computerized method and systems for performing deferred safety check operations
CN109697114B (zh) * 2017-10-20 2023-07-28 伊姆西Ip控股有限责任公司 用于应用迁移的方法和机器
US10572302B2 (en) * 2017-11-07 2020-02-25 Oracle Internatíonal Corporatíon Computerized methods and systems for executing and analyzing processes
US10705843B2 (en) * 2017-12-21 2020-07-07 International Business Machines Corporation Method and system for detection of thread stall
US10915317B2 (en) * 2017-12-22 2021-02-09 Alibaba Group Holding Limited Multiple-pipeline architecture with special number detection
CN108196946B (zh) * 2017-12-28 2019-08-09 北京翼辉信息技术有限公司 一种微内核操作系统的分区多核方法
US10366017B2 (en) 2018-03-30 2019-07-30 Intel Corporation Methods and apparatus to offload media streams in host devices
US11277455B2 (en) 2018-06-07 2022-03-15 Mellanox Technologies, Ltd. Streaming system
US10740220B2 (en) 2018-06-27 2020-08-11 Microsoft Technology Licensing, Llc Cache-based trace replay breakpoints using reserved tag field bits
CN109087381B (zh) * 2018-07-04 2023-01-17 西安邮电大学 一种基于双发射vliw的统一架构渲染着色器
CN110837414B (zh) * 2018-08-15 2024-04-12 京东科技控股股份有限公司 任务处理方法和装置
US10862485B1 (en) * 2018-08-29 2020-12-08 Verisilicon Microelectronics (Shanghai) Co., Ltd. Lookup table index for a processor
CN109445516A (zh) * 2018-09-27 2019-03-08 北京中电华大电子设计有限责任公司 一种应用于双核SoC中外设时钟控制方法及电路
US20200106828A1 (en) * 2018-10-02 2020-04-02 Mellanox Technologies, Ltd. Parallel Computation Network Device
US11061894B2 (en) * 2018-10-31 2021-07-13 Salesforce.Com, Inc. Early detection and warning for system bottlenecks in an on-demand environment
US11108675B2 (en) 2018-10-31 2021-08-31 Keysight Technologies, Inc. Methods, systems, and computer readable media for testing effects of simulated frame preemption and deterministic fragmentation of preemptable frames in a frame-preemption-capable network
US10776984B2 (en) 2018-11-08 2020-09-15 Insightfulvr, Inc Compositor for decoupled rendering
US10678693B2 (en) * 2018-11-08 2020-06-09 Insightfulvr, Inc Logic-executing ring buffer
US10728134B2 (en) * 2018-11-14 2020-07-28 Keysight Technologies, Inc. Methods, systems, and computer readable media for measuring delivery latency in a frame-preemption-capable network
CN109374935A (zh) * 2018-11-28 2019-02-22 武汉精能电子技术有限公司 一种电子负载并机方法及系统
US10761822B1 (en) * 2018-12-12 2020-09-01 Amazon Technologies, Inc. Synchronization of computation engines with non-blocking instructions
GB2580136B (en) * 2018-12-21 2021-01-20 Graphcore Ltd Handling exceptions in a multi-tile processing arrangement
US10671550B1 (en) * 2019-01-03 2020-06-02 International Business Machines Corporation Memory offloading a problem using accelerators
TWI703500B (zh) * 2019-02-01 2020-09-01 睿寬智能科技有限公司 可縮短內文交換時間之方法及其半導體裝置
US11625393B2 (en) 2019-02-19 2023-04-11 Mellanox Technologies, Ltd. High performance computing system
EP3699770A1 (en) 2019-02-25 2020-08-26 Mellanox Technologies TLV Ltd. Collective communication system and methods
US10771398B1 (en) * 2019-03-06 2020-09-08 Live Nation Entertainment, Inc. Systems and methods for queue control based on client-specific protocols
CN110177220B (zh) * 2019-05-23 2020-09-01 上海图趣信息科技有限公司 一种具有外部授时功能的相机及其控制方法
WO2021026225A1 (en) * 2019-08-08 2021-02-11 Neuralmagic Inc. System and method of accelerating execution of a neural network
US11461106B2 (en) * 2019-10-23 2022-10-04 Texas Instruments Incorporated Programmable event testing
US11144483B2 (en) * 2019-10-25 2021-10-12 Micron Technology, Inc. Apparatuses and methods for writing data to a memory
FR3103583B1 (fr) * 2019-11-27 2023-05-12 Commissariat Energie Atomique Système de gestion des données partagées
US10877761B1 (en) * 2019-12-08 2020-12-29 Mellanox Technologies, Ltd. Write reordering in a multiprocessor system
CN111061510B (zh) * 2019-12-12 2021-01-05 湖南毂梁微电子有限公司 一种可扩展的asip结构平台及指令处理方法
CN111143127B (zh) * 2019-12-23 2023-09-26 杭州迪普科技股份有限公司 监管网络设备的方法、装置、存储介质及设备
CN113034653B (zh) * 2019-12-24 2023-08-08 腾讯科技(深圳)有限公司 一种动画渲染方法及装置
US11750699B2 (en) 2020-01-15 2023-09-05 Mellanox Technologies, Ltd. Small message aggregation
US11137936B2 (en) * 2020-01-21 2021-10-05 Google Llc Data processing on memory controller
US11360780B2 (en) * 2020-01-22 2022-06-14 Apple Inc. Instruction-level context switch in SIMD processor
US11252027B2 (en) 2020-01-23 2022-02-15 Mellanox Technologies, Ltd. Network element supporting flexible data reduction operations
US11188316B2 (en) * 2020-03-09 2021-11-30 International Business Machines Corporation Performance optimization of class instance comparisons
US11354130B1 (en) * 2020-03-19 2022-06-07 Amazon Technologies, Inc. Efficient race-condition detection
US20210312325A1 (en) * 2020-04-01 2021-10-07 Samsung Electronics Co., Ltd. Mixed-precision neural processing unit (npu) using spatial fusion with load balancing
US20210326175A1 (en) * 2020-04-16 2021-10-21 Tom Herbert Parallelism in serial pipeline processing
JP7380416B2 (ja) 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
JP7380415B2 (ja) * 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
JP2023531412A (ja) 2020-06-16 2023-07-24 イントゥイセル アー・ベー コンピュータまたはハードウェアにより実装されたエンティティ識別方法、コンピュータプログラム製品およびエンティティ識別装置
US11876885B2 (en) 2020-07-02 2024-01-16 Mellanox Technologies, Ltd. Clock queue with arming and/or self-arming features
GB202010839D0 (en) * 2020-07-14 2020-08-26 Graphcore Ltd Variable allocation
US20240014828A1 (en) * 2020-09-03 2024-01-11 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for improved belief propagation based decoding
US11340914B2 (en) * 2020-10-21 2022-05-24 Red Hat, Inc. Run-time identification of dependencies during dynamic linking
JP7203799B2 (ja) 2020-10-27 2023-01-13 昭和電線ケーブルシステム株式会社 油入り電力ケーブルおよび接続部における漏油箇所の補修方法
US11556378B2 (en) 2020-12-14 2023-01-17 Mellanox Technologies, Ltd. Offloading execution of a multi-task parameter-dependent operation to a network device
TWI768592B (zh) * 2020-12-14 2022-06-21 瑞昱半導體股份有限公司 中央處理器
US11243773B1 (en) 2020-12-14 2022-02-08 International Business Machines Corporation Area and power efficient mechanism to wakeup store-dependent loads according to store drain merges
CN112924962B (zh) * 2021-01-29 2023-02-21 上海匀羿电磁科技有限公司 一种地下管线侧向偏移滤波检测及定位方法
CN113112393B (zh) * 2021-03-04 2022-05-31 浙江欣奕华智能科技有限公司 视觉导航系统中的边缘化装置
CN113438171B (zh) * 2021-05-08 2022-11-15 清华大学 一种低功耗存算一体系统的多芯片连接方法
CN113553266A (zh) * 2021-07-23 2021-10-26 湖南大学 一种基于并行性检测模型的串行程序的并行性检测方法、系统、终端及可读存储介质
US20230086827A1 (en) * 2021-09-23 2023-03-23 Oracle International Corporation Analyzing performance of resource systems that process requests for particular datasets
US11770345B2 (en) * 2021-09-30 2023-09-26 US Technology International Pvt. Ltd. Data transfer device for receiving data from a host device and method therefor
JP2023082571A (ja) * 2021-12-02 2023-06-14 富士通株式会社 演算処理装置及び演算処理方法
US20230289189A1 (en) * 2022-03-10 2023-09-14 Nvidia Corporation Distributed Shared Memory
WO2023214915A1 (en) * 2022-05-06 2023-11-09 IntuiCell AB A data processing system for processing pixel data to be indicative of contrast.
US11922237B1 (en) 2022-09-12 2024-03-05 Mellanox Technologies, Ltd. Single-step collective operations
DE102022003674A1 (de) * 2022-10-05 2024-04-11 Mercedes-Benz Group AG Verfahren zum statischen Allozieren von lnformationen zu Speicherbereichen, informationstechnisches System und Fahrzeug

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295494A (ja) * 2003-03-27 2004-10-21 Fujitsu Ltd 汎用性及びリアルタイム性を有するマルチ処理ノードシステム
JP2009519513A (ja) * 2005-12-06 2009-05-14 ボストンサーキッツ インコーポレイテッド 専用スレッド管理を用いたマルチコアの演算処理方法及び装置
US7788468B1 (en) * 2005-12-15 2010-08-31 Nvidia Corporation Synchronization of threads in a cooperative thread array
JP2013544411A (ja) * 2010-11-18 2013-12-12 日本テキサス・インスツルメンツ株式会社 処理クラスタ用の共有機能メモリ回路要素

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4862350A (en) * 1984-08-03 1989-08-29 International Business Machines Corp. Architecture for a distributive microprocessing system
GB2211638A (en) * 1987-10-27 1989-07-05 Ibm Simd array processor
US5218709A (en) * 1989-12-28 1993-06-08 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Special purpose parallel computer architecture for real-time control and simulation in robotic applications
IL97315A (en) * 1990-02-28 1994-10-07 Hughes Aircraft Co Multi-group signal processor
US5815723A (en) * 1990-11-13 1998-09-29 International Business Machines Corporation Picket autonomy on a SIMD machine
CA2073516A1 (en) * 1991-11-27 1993-05-28 Peter Michael Kogge Dynamic multi-mode parallel processor array architecture computer system
US5315700A (en) * 1992-02-18 1994-05-24 Neopath, Inc. Method and apparatus for rapidly processing data sequences
JPH07287700A (ja) * 1992-05-22 1995-10-31 Internatl Business Mach Corp <Ibm> コンピュータ・システム
US5315701A (en) * 1992-08-07 1994-05-24 International Business Machines Corporation Method and system for processing graphics data streams utilizing scalable processing nodes
US5560034A (en) * 1993-07-06 1996-09-24 Intel Corporation Shared command list
JPH07210545A (ja) * 1994-01-24 1995-08-11 Matsushita Electric Ind Co Ltd 並列処理プロセッサ
US6002411A (en) * 1994-11-16 1999-12-14 Interactive Silicon, Inc. Integrated video and memory controller with data processing and graphical processing capabilities
JPH1049368A (ja) * 1996-07-30 1998-02-20 Mitsubishi Electric Corp 条件実行命令を有するマイクロプロセッサ
JP3778573B2 (ja) * 1996-09-27 2006-05-24 株式会社ルネサステクノロジ データプロセッサ及びデータ処理システム
US6108775A (en) * 1996-12-30 2000-08-22 Texas Instruments Incorporated Dynamically loadable pattern history tables in a multi-task microprocessor
US6243499B1 (en) * 1998-03-23 2001-06-05 Xerox Corporation Tagging of antialiased images
JP2000207202A (ja) * 1998-10-29 2000-07-28 Pacific Design Kk 制御装置およびデ―タ処理装置
EP1181648A1 (en) * 1999-04-09 2002-02-27 Clearspeed Technology Limited Parallel data processing apparatus
US8171263B2 (en) * 1999-04-09 2012-05-01 Rambus Inc. Data processing apparatus comprising an array controller for separating an instruction stream processing instructions and data transfer instructions
US6751698B1 (en) * 1999-09-29 2004-06-15 Silicon Graphics, Inc. Multiprocessor node controller circuit and method
EP1102163A3 (en) * 1999-11-15 2005-06-29 Texas Instruments Incorporated Microprocessor with improved instruction set architecture
JP2001167069A (ja) * 1999-12-13 2001-06-22 Fujitsu Ltd マルチプロセッサシステム及びデータ転送方法
JP2002073329A (ja) * 2000-08-29 2002-03-12 Canon Inc プロセッサ
AU2001296604A1 (en) * 2000-10-04 2002-04-15 Pyxsys Corporation Simd system and method
US6959346B2 (en) * 2000-12-22 2005-10-25 Mosaid Technologies, Inc. Method and system for packet encryption
JP5372307B2 (ja) * 2001-06-25 2013-12-18 株式会社ガイア・システム・ソリューション データ処理装置およびその制御方法
GB0119145D0 (en) * 2001-08-06 2001-09-26 Nokia Corp Controlling processing networks
JP2003099252A (ja) * 2001-09-26 2003-04-04 Pacific Design Kk データ処理装置およびその制御方法
JP3840966B2 (ja) * 2001-12-12 2006-11-01 ソニー株式会社 画像処理装置およびその方法
US7853778B2 (en) * 2001-12-20 2010-12-14 Intel Corporation Load/move and duplicate instructions for a processor
US7548586B1 (en) * 2002-02-04 2009-06-16 Mimar Tibet Audio and video processing apparatus
US7506135B1 (en) * 2002-06-03 2009-03-17 Mimar Tibet Histogram generation with vector operations in SIMD and VLIW processor by consolidating LUTs storing parallel update incremented count values for vector data elements
AU2003256870A1 (en) * 2002-08-09 2004-02-25 Intel Corporation Multimedia coprocessor control mechanism including alignment or broadcast instructions
US7107436B2 (en) * 2003-09-08 2006-09-12 Freescale Semiconductor, Inc. Conditional next portion transferring of data stream to or from register based on subsequent instruction aspect
US7836276B2 (en) * 2005-12-02 2010-11-16 Nvidia Corporation System and method for processing thread groups in a SIMD architecture
DE10353267B3 (de) * 2003-11-14 2005-07-28 Infineon Technologies Ag Multithread-Prozessorarchitektur zum getriggerten Thread-Umschalten ohne Zykluszeitverlust und ohne Umschalt-Programmbefehl
GB2409060B (en) * 2003-12-09 2006-08-09 Advanced Risc Mach Ltd Moving data between registers of different register data stores
US8566828B2 (en) * 2003-12-19 2013-10-22 Stmicroelectronics, Inc. Accelerator for multi-processing system and method
US7206922B1 (en) * 2003-12-30 2007-04-17 Cisco Systems, Inc. Instruction memory hierarchy for an embedded processor
US7412587B2 (en) * 2004-02-16 2008-08-12 Matsushita Electric Industrial Co., Ltd. Parallel operation processor utilizing SIMD data transfers
JP4698242B2 (ja) * 2004-02-16 2011-06-08 パナソニック株式会社 並列演算プロセッサ、並列演算プロセッサの動作を制御する制御プログラム及び制御方法、並びに並列演算プロセッサを搭載した画像処理装置
JP2005352568A (ja) * 2004-06-08 2005-12-22 Hitachi-Lg Data Storage Inc アナログ信号処理回路、並びに、そのデータレジスタ書換方法とそのデータ通信方法
US7681199B2 (en) * 2004-08-31 2010-03-16 Hewlett-Packard Development Company, L.P. Time measurement using a context switch count, an offset, and a scale factor, received from the operating system
US7565469B2 (en) * 2004-11-17 2009-07-21 Nokia Corporation Multimedia card interface method, computer program product and apparatus
US7257695B2 (en) * 2004-12-28 2007-08-14 Intel Corporation Register file regions for a processing system
US20060155955A1 (en) * 2005-01-10 2006-07-13 Gschwind Michael K SIMD-RISC processor module
GB2437837A (en) * 2005-02-25 2007-11-07 Clearspeed Technology Plc Microprocessor architecture
GB2423840A (en) * 2005-03-03 2006-09-06 Clearspeed Technology Plc Reconfigurable logic in processors
US7992144B1 (en) * 2005-04-04 2011-08-02 Oracle America, Inc. Method and apparatus for separating and isolating control of processing entities in a network interface
CN101322111A (zh) * 2005-04-07 2008-12-10 杉桥技术公司 每个线程具有多个并发流水线的多线程处理器
US20060259737A1 (en) * 2005-05-10 2006-11-16 Telairity Semiconductor, Inc. Vector processor with special purpose registers and high speed memory access
KR101270925B1 (ko) * 2005-05-20 2013-06-07 소니 주식회사 신호 처리 장치
JP2006343872A (ja) * 2005-06-07 2006-12-21 Keio Gijuku マルチスレッド中央演算装置および同時マルチスレッディング制御方法
US20060294344A1 (en) * 2005-06-28 2006-12-28 Universal Network Machines, Inc. Computer processor pipeline with shadow registers for context switching, and method
US8275976B2 (en) * 2005-08-29 2012-09-25 The Invention Science Fund I, Llc Hierarchical instruction scheduler facilitating instruction replay
US7617363B2 (en) * 2005-09-26 2009-11-10 Intel Corporation Low latency message passing mechanism
US7421529B2 (en) * 2005-10-20 2008-09-02 Qualcomm Incorporated Method and apparatus to clear semaphore reservation for exclusive access to shared memory
CN2862511Y (zh) * 2005-12-15 2007-01-24 李志刚 用于gjb-289a总线的多功能接口板
US7360063B2 (en) * 2006-03-02 2008-04-15 International Business Machines Corporation Method for SIMD-oriented management of register maps for map-based indirect register-file access
US8560863B2 (en) * 2006-06-27 2013-10-15 Intel Corporation Systems and techniques for datapath security in a system-on-a-chip device
JP2008059455A (ja) * 2006-09-01 2008-03-13 Kawasaki Microelectronics Kk マルチプロセッサ
EP2523101B1 (en) * 2006-11-14 2014-06-04 Soft Machines, Inc. Apparatus and method for processing complex instruction formats in a multi- threaded architecture supporting various context switch modes and virtualization schemes
US7870400B2 (en) * 2007-01-02 2011-01-11 Freescale Semiconductor, Inc. System having a memory voltage controller which varies an operating voltage of a memory and method therefor
JP5079342B2 (ja) * 2007-01-22 2012-11-21 ルネサスエレクトロニクス株式会社 マルチプロセッサ装置
US20080270363A1 (en) * 2007-01-26 2008-10-30 Herbert Dennis Hunt Cluster processing of a core information matrix
US8250550B2 (en) * 2007-02-14 2012-08-21 The Mathworks, Inc. Parallel processing of distributed arrays and optimum data distribution
CN101021832A (zh) * 2007-03-19 2007-08-22 中国人民解放军国防科学技术大学 支持局部寄存和条件执行的64位浮点整数融合运算群
US8132172B2 (en) * 2007-03-26 2012-03-06 Intel Corporation Thread scheduling on multiprocessor systems
US7627744B2 (en) * 2007-05-10 2009-12-01 Nvidia Corporation External memory accessing DMA request scheduling in IC of parallel processing engines according to completion notification queue occupancy level
CN100461095C (zh) * 2007-11-20 2009-02-11 浙江大学 一种支持多模式的媒体增强流水线乘法单元设计方法
FR2925187B1 (fr) * 2007-12-14 2011-04-08 Commissariat Energie Atomique Systeme comportant une pluralite d'unites de traitement permettant d'executer des taches en parallele,en mixant le mode d'execution de type controle et le mode d'execution de type flot de donnees
CN101471810B (zh) * 2007-12-28 2011-09-14 华为技术有限公司 一种在集群环境下实现任务的方法、装置及系统
US20090183035A1 (en) * 2008-01-10 2009-07-16 Butler Michael G Processor including hybrid redundancy for logic error protection
CN102047241B (zh) * 2008-05-30 2014-03-12 先进微装置公司 本地与全局数据共享
CN101739235A (zh) * 2008-11-26 2010-06-16 中国科学院微电子研究所 将32位dsp与通用risc cpu无缝混链的处理器装置
CN101799750B (zh) * 2009-02-11 2015-05-06 上海芯豪微电子有限公司 一种数据处理的方法与装置
CN101593164B (zh) * 2009-07-13 2012-05-09 中国船舶重工集团公司第七○九研究所 基于嵌入式Linux的从USB HID装置及固件实现方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295494A (ja) * 2003-03-27 2004-10-21 Fujitsu Ltd 汎用性及びリアルタイム性を有するマルチ処理ノードシステム
JP2009519513A (ja) * 2005-12-06 2009-05-14 ボストンサーキッツ インコーポレイテッド 専用スレッド管理を用いたマルチコアの演算処理方法及び装置
US7788468B1 (en) * 2005-12-15 2010-08-31 Nvidia Corporation Synchronization of threads in a cooperative thread array
JP2013544411A (ja) * 2010-11-18 2013-12-12 日本テキサス・インスツルメンツ株式会社 処理クラスタ用の共有機能メモリ回路要素
JP2014501008A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 データを移動させるための方法及び装置
JP2014501007A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 汎用レジスタファイルからsimdレジスタファイルへデータを移動させるための方法及び装置
JP2014501009A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 データを移動させるための方法及び装置
JP2014501969A (ja) * 2010-11-18 2014-01-23 日本テキサス・インスツルメンツ株式会社 コンテキスト切替え方法及び装置
JP2014503876A (ja) * 2010-11-18 2014-02-13 日本テキサス・インスツルメンツ株式会社 処理クラスタのための制御ノード
JP2014505916A (ja) * 2010-11-18 2014-03-06 日本テキサス・インスツルメンツ株式会社 Simdレジスタファイルから汎用レジスタファイルへデータを移動させるための方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015031819; 下馬場朋禄,伊藤智義: 'CUDA技術を利用したGPUコンピューティングの実際 前編' Interface 第34巻,第6号, 20080601, Pages:144〜153, CQ出版株式会社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014501009A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 データを移動させるための方法及び装置
JP2014501008A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 データを移動させるための方法及び装置
JP2014501007A (ja) * 2010-11-18 2014-01-16 日本テキサス・インスツルメンツ株式会社 汎用レジスタファイルからsimdレジスタファイルへデータを移動させるための方法及び装置
JP2014501969A (ja) * 2010-11-18 2014-01-23 日本テキサス・インスツルメンツ株式会社 コンテキスト切替え方法及び装置
JP2014503876A (ja) * 2010-11-18 2014-02-13 日本テキサス・インスツルメンツ株式会社 処理クラスタのための制御ノード
JP2014505916A (ja) * 2010-11-18 2014-03-06 日本テキサス・インスツルメンツ株式会社 Simdレジスタファイルから汎用レジスタファイルへデータを移動させるための方法及び装置
KR20170052382A (ko) * 2015-11-04 2017-05-12 삼성전자주식회사 데이터를 병렬 처리하는 방법 및 이를 위한 장치
KR102248846B1 (ko) * 2015-11-04 2021-05-06 삼성전자주식회사 데이터를 병렬 처리하는 방법 및 이를 위한 장치
WO2021157315A1 (ja) * 2020-02-05 2021-08-12 株式会社ソニー・インタラクティブエンタテインメント グラフィックプロセッサ及び情報処理システム
JP7339368B2 (ja) 2020-02-05 2023-09-05 株式会社ソニー・インタラクティブエンタテインメント グラフィックプロセッサ及び情報処理システム

Also Published As

Publication number Publication date
CN103221933A (zh) 2013-07-24
JP5989656B2 (ja) 2016-09-07
WO2012068513A3 (en) 2012-09-20
JP2014503876A (ja) 2014-02-13
JP2014501969A (ja) 2014-01-23
CN103221938B (zh) 2016-01-13
WO2012068498A3 (en) 2012-12-13
US20120131309A1 (en) 2012-05-24
WO2012068504A3 (en) 2012-10-04
WO2012068475A2 (en) 2012-05-24
WO2012068475A3 (en) 2012-07-12
CN103221934A (zh) 2013-07-24
WO2012068504A2 (en) 2012-05-24
CN103221936B (zh) 2016-07-20
JP2014505916A (ja) 2014-03-06
WO2012068449A8 (en) 2013-01-03
CN103221918A (zh) 2013-07-24
JP6096120B2 (ja) 2017-03-15
JP6243935B2 (ja) 2017-12-06
JP2013544411A (ja) 2013-12-12
WO2012068494A3 (en) 2012-07-19
CN103221939A (zh) 2013-07-24
CN103221937A (zh) 2013-07-24
WO2012068486A3 (en) 2012-07-12
CN103221935A (zh) 2013-07-24
CN103221935B (zh) 2016-08-10
CN103221938A (zh) 2013-07-24
JP2014501009A (ja) 2014-01-16
WO2012068478A2 (en) 2012-05-24
CN103221939B (zh) 2016-11-02
WO2012068494A2 (en) 2012-05-24
CN103221933B (zh) 2016-12-21
WO2012068449A2 (en) 2012-05-24
WO2012068498A2 (en) 2012-05-24
CN103221936A (zh) 2013-07-24
WO2012068486A2 (en) 2012-05-24
WO2012068513A2 (en) 2012-05-24
US9552206B2 (en) 2017-01-24
JP2014501008A (ja) 2014-01-16
CN103221918B (zh) 2017-06-09
JP2016129039A (ja) 2016-07-14
CN103221937B (zh) 2016-10-12
CN103221934B (zh) 2016-08-03
WO2012068449A3 (en) 2012-08-02
JP2014501007A (ja) 2014-01-16
JP5859017B2 (ja) 2016-02-10
WO2012068478A3 (en) 2012-07-12

Similar Documents

Publication Publication Date Title
JP6096120B2 (ja) 処理クラスタのためのロード/ストア回路要素
US10664942B2 (en) Reconfigurable virtual graphics and compute processor pipeline
Jones et al. GRIP—a high-performance architecture for parallel graph reduction
CN111527485B (zh) 存储器网络处理器
Jenkins et al. Processing MPI derived datatypes on noncontiguous GPU-resident data
US11782760B2 (en) Time-multiplexed use of reconfigurable hardware
US20090055807A1 (en) Fast image loading mechanism in cell spu
Contini et al. Enabling Reconfigurable HPC through MPI-based Inter-FPGA Communication
US11500802B1 (en) Data replication for accelerator
US11119787B1 (en) Non-intrusive hardware profiling
US20230195478A1 (en) Access To Intermediate Values In A Dataflow Computation
Pandit An Extended GASNet API for PGAS Programming on a Zynq SoC Cluster
Lyons et al. Shrink-fit: A framework for flexible accelerator sizing
JP2023509813A (ja) Simt指令処理方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150811

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160105

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160105

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20160105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160308

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170215

R150 Certificate of patent or registration of utility model

Ref document number: 6096120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250