JP2006120147A - マルチプロセッサシステムで多重構成をサポートする方法及び装置 - Google Patents

マルチプロセッサシステムで多重構成をサポートする方法及び装置 Download PDF

Info

Publication number
JP2006120147A
JP2006120147A JP2005300767A JP2005300767A JP2006120147A JP 2006120147 A JP2006120147 A JP 2006120147A JP 2005300767 A JP2005300767 A JP 2005300767A JP 2005300767 A JP2005300767 A JP 2005300767A JP 2006120147 A JP2006120147 A JP 2006120147A
Authority
JP
Japan
Prior art keywords
interface
multiprocessor
mode
memory
multiprocessors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005300767A
Other languages
English (en)
Other versions
JP4286826B2 (ja
Inventor
Takeshi Yamazaki
剛 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of JP2006120147A publication Critical patent/JP2006120147A/ja
Application granted granted Critical
Publication of JP4286826B2 publication Critical patent/JP4286826B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • G06F12/0835Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means for main memory peripheral accesses (e.g. I/O or DMA)
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multi Processors (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】1つ以上のマルチプロセッサシステムを、1つ以上の外部デバイスと相互接続し、高い処理機能を実現するための新たな方法や装置に対する技術を提供する。
【解決手段】1つ以上の通信バスを介して動作可能となるように相互に結合された複数のプロセッサと、コンフィギュラブルなインターフェース回路と、を有するマルチプロセッサを提供する。このインターフェース回路は、マルチプロセッサと1つ以上の外部デバイスとを相互接続することができ、かつ、マルチプロセッサの1つ以上のメモリと、1つ以上の外部デバイスの1つ以上のメモリと、の間のキャッシュのコヒーレンシーを維持することができる、コヒーレントな対称型インターフェースを有する。
【選択図】図1

Description

本発明はマルチプロセッサシステムアーキテクチャを用いて、マルチプロセッシング構成を実現するための方法及び装置に関する。
最先端のコンピュータアプリケーションは、リアルタイムのマルチメディア機能を伴っているために、近年はデータスループットが高くより高速なコンピュータが常に望まれている。グラフィックアプリケーションは処理システムへの要求が大きいアプリケーションの1つであり、その理由は、グラフィックアプリケーションが所望のビジュアル結果を実現するために、比較的短時間で非常に多くのデータアクセス、データの演算処理、及びデータ操作を要求するからである。これらのアプリケーションは、1秒間に数千メガビットのデータ処理等の非常に高速な処理速度を要求する。シングルプロセッサを採用し、高速の処理速度を実現している処理システムもある一方で、マルチプロセッサアーキテクチャを利用して実装されている処理システムもある。マルチプロセッサシステムでは、複数のプロセッサが並列に(あるいは少なくとも協調して)動作し、所望の処理結果を実現することが出来る。
マルチプロセッシングシステムには、処理のスループットや汎用性を高めるために、マトリックス構成においてインターフェースを介した相互接続を検討しているものもある。このような構成は米国特許公開公報2005/0097231号と、米国特許第6,526,491号とに開示されており、その開示の全てが本明細書に参照として組み込まれる。これらの文書に開示されている技術は様々なアプリケーションにおいて利用されうるが、これらの技術では、その他のアプリケーションで所望される柔軟性、及び/又は、プログラマビリティを与えることはできない。
従って、1つ以上のマルチプロセッサシステムを、1つ以上の外部デバイスと相互接続し、高い処理機能を実現するための新たな方法や装置に対する技術が必要とされている。
本発明の1つ以上の態様によれば、プロセッシングエレメント(PE:Processing Element,なお、PEでは複数の異なるパラレルプロセッサが採用されている)は、ブロードバンドインターフェースコントローラ(BIC:Broadband Interface Controller)を備えており、該BICは他のPEやメモリサブシステム、スイッチ、ブリッジチップなどを取り付けるために、コヒーレントの、あるいは非コヒーレントの高性能の相互接続を提供する。BICは種々のシステム要件を満たすよう、様々なプロトコルや帯域幅を、2つのフレキシブルなインターフェースに提供する。インターフェースは、2つのI/Oインターフェース(IOIF0/1)として、あるいはI/OとコヒーレントSMPインターフェース(IOIF及びBIF)のいずれかとして構成されうる。BICがコヒーレントSMPインターフェースとして動作するように設定されている場合、BICは高性能でコヒーレントな相互接続をPEに提供する。BICがI/Oインターフェースとして動作するように設定されている場合、BICはPEに高性能(非コヒーレント)の相互接続を提供する。
BICは論理層、トランスポート層、データリンク層、及び物理リンク層を有している。論理層(及び、実施形態によってはトランスポート層)は、コヒーレントSMPインターフェース(BIF)と非コヒーレントインターフェース(IOIF)間のBICの動作を変更するように構成されうる。論理層はオーダリングやコヒーレントルールを含む、BIF又はIOIFの基本動作を定義する。トランスポート層はデバイス間にコマンドやデータパケットがどのように転送されるかを定義する。コマンドやデータパケットは好ましくは、データリンク層へ送るために、物理層群(PLG:Physical Layer Groups)と呼ばれる小さなユニットに分けられる。データリンク層は送信側と受信側の間に(実質的に)情報を間違いなく確実に送信する機構を定義する。物理層はI/Oドライバの電気的特徴やタイミングを定義し、また、データリンクエンベロープが物理層を通じてどのように送信されるかを記述する。物理リンク層は好ましくは、2セットまでの論理/トランスポート/データリンク層の同時並行処理をサポートし、また、その2つの間の物理層の、利用可能な帯域幅の割当てが設定可能な方法をサポートする。
BICの論理層、トランスポート層、データリンク層、及び物理層の機能や動作は好ましくは以下の通りである。インターフェースの帯域幅の合計が物理層の最大帯域幅を超えない範囲で、物理層の帯域幅が2つのインターフェース間に分割される。一例では、物理層の出力帯域幅自体の合計値は35GB/s、入力帯域幅自体の合計値は25GB/sとなり得る。
本発明の1つ以上の更なる実施形態によれば、BICのフレキシブルなインターフェースにより、1つ以上のプロセッサエレメントが配置されるシステム構成を実質的にフレキシブルなものとし得る。例えばBICは、PEと2つのデバイス間に対応の非コヒーレントインターフェースを設けるために、デュアルI/Oインターフェース(IOIF0及びIOIF1)を実装するように動作することができる。BICの物理層入力/出力帯域幅は、2つのインターフェースの合計値が物理層の帯域幅の合計値を超えない範囲で、2つのIOIFインターフェース間に分割されうる(例:出力30GB/s、入力25GB/s)。
別の実施形態によれば、2つのプロセッサエレメントはコヒーレント対称型マルチプロセッサ(SMP:symmetric multiprocessor)インターフェース(又は、BIF)構造において、その対応のBICを採用している各々により、カスケード接続されうる。各プロセッシングエレメントのコヒーレントSMPインターフェース(BIF)は、その間にコヒーレントインターフェースを設けるために相互に接続されうる。各プロセッシングエレメントのIOIFは、非コヒーレントに他のデバイスとデータを送受信する。同様に、各BICの物理層入力/出力帯域幅が、その2つのインターフェース間に分割されうる。
更なる別の実施形態によると、2つ以上のプロセッサエレメントが、コヒーレントSMPインターフェース(BIF)構成において、その対応のBICを採用している各々により、カスケード接続されうる。中央に配置されているプロセッサエレメントは、2つのBIFを持つBICを採用しうる。末端に配置されているプロセッサエレメントのペアは、中央に配置されているプロセッサエレメントを構成し、また、それぞれが1つのBIFと1つのIOIFを持つBICを採用している。各プロセッシングエレメントのBIFは、その間にコヒーレントインターフェースを設けるために、相互に接続されうる。端のプロセッシングエレメントのIOIFは、非コヒーレント法に他のデバイスとのデータを送受信しうる。
本発明の更なる別の実施形態によれば、2つ以上のプロセッサエレメントは、I/O及びコヒーレントSMPインターフェース(IOIF及びBIF)構成において、その対応のBICを採用している各々により、カスケード接続されうる。各プロセッシングエレメントのコヒーレントSMPインターフェースは、プロセッシングエレメントを相互に効果的に結合するスイッチと結合され、その間にコヒーレントインターフェースを設けることができる。各プロセッシングエレメントのIOIFは非コヒーレントにシステムの他のデバイスとのデータの送受信をしうる。
添付の図面を参照しつつ、ここに記載する本発明の説明を読めば、他の態様、機能および利点などは当業者に自明となるであろう。
本発明を説明するために、現在の好ましい形態を図面の形式に示すが、本発明は図示したとおりの構成ならびに手段に限定されないことを理解されたい。
以下に本明細書で説明している1つ以上の特徴を実行するのに適した、マルチプロセッサシステムのための好ましいコンピュータアーキテクチャを説明する。1つ以上の実施形態によれば、マルチプロセッサシステムは、ゲームシステム、家庭用端末、PCシステム、サーバーシステム、及びワークステーションなどのメディアリッチアプリケーションを、スタンドアローン処理、及び/又は分散処理するために動作することができる、シングルチップソリューションとして実装されうる。ゲームシステムや家庭用端末などのいくつかのアプリケーションでは、リアルタイムの演算処理は必須である。例えば、リアルタイムの分散ゲームアプリケーションでは、ユーザーにリアルタイムの経験をしていると思わせる程速く、1つ以上のネットワークイメージの復元、3Dコンピュータグラフィック、オーディオ生成、ネットワーク通信、物理的シミュレーション、及び人工知能処理が実行される必要がある。従って、マルチプロセッサシステムの各プロセッサは、短時間で、かつ予測可能時間でタスクを完了する必要がある。
このために、また、本コンピュータアーキテクチャによれば、マルチプロセッシングコンピュータシステムの全プロセッサは、共通の演算モジュール(あるいはセル)から構成される。この共通の演算モジュールは、構造が一貫しており、また好ましくは、同じ命令セットアーキテクチャを採用している。マルチプロセッシングコンピュータシステムは、1つ以上のクライアント、サーバー、PC、モバイルコンピュータ、ゲームマシン、PDA、セットトップボックス、電気器具、デジタルテレビ、及びコンピュータプロセッサを使用する他のデバイスから形成されうる。
複数のコンピュータシステムもまた、所望に応じてネットワークのメンバーとなりうる。一貫モジュール構造により、マルチプロセッシングコンピュータシステムによるアプリケーション及びデータの効率的高速処理が可能になる。またネットワークが採用される場合は、ネットワーク上にアプリケーション及びデータの高速送信が可能にする。この構造はまた、大きさや処理能力が様々なネットワークのメンバーの構築を単純化し、また、これらのメンバーが処理するアプリケーションの準備を単純化する。
図1と図2を参照すると、基本的な処理モジュールはプロセッサエレメント(PE)500である。PE500はI/Oインターフェース502、プロセッシングユニット(PU)504、及び複数のサブプロセッシングユニット508、すなわち、サブプロセッシングユニット508A、サブプロセッシングユニット508B、サブプロセッシングユニット508C、及びサブプロセッシングユニット508Dを備えている。なお、好適には、PUとしてパワーPC(PPE:Power PC Element)を、SPUとしてシナジスティックプロセッシングエレメント(SPE:Synergistic Processing Element)を用いる。ローカル(あるいは内部)PEバス512は、データ及びアプリケーションを、PU504、サブプロセッシングユニット508、及びメモリインターフェース511間に送信する。ローカルPEバス512は、例えば従来のアーキテクチャを備えることができ、又は、パケット−スイッチネットワークとして実装されうる。パケットスイッチネットワークとして実装される場合は、更なるハードウエアが必要であるものの、利用可能な帯域幅を増やす。
PE500はデジタル論理回路を実装するよう様々な方法を用いて構成されうる。しかしながら、好ましくは、PE500はSOI基板を用いた集積回路として構成でき、あるいは、シリコン基板に相補性金属酸化膜半導体(CMOS:Complementary Metal Oxide Semiconductor)を用いた単一の集積回路とすることも好適な構成である。基板の他の材料には、ガリウムヒ素、ガリウムアルミウムヒ素、及び、様々なドーパントを採用している他の、いわゆる、III−B化合物を含む。PE500はまた、高速単一磁束量子(RSFQ:Rapid Single-flux-Quantum)論理回路などの超電導デバイスを用いて実装されうる。
PE500は高帯域のメモリ接続516を介して、共有(メイン)メモリ514と密接に結合するよう構成できる。なお、メモリ514をオンチップ化してもよい。好ましくは、メモリ514はダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)であるが、メモリ514は例えば、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、磁気ランダムアクセスメモリ(MRAM:Magnetic Random Access Memory)、光メモリ、ホログラフィックメモリなどとして、他の方法を用いて実装されうる。
PU504とサブプロセッシングユニット508は好ましくは、それぞれダイレクトメモリアクセス(DMA)の機能を備えたメモリフローコントローラ(MFC:Memory Flow Controller)と結合されており、該コントローラはメモリインターフェース511と共に、PE500のDRAM514とサブプロセッシングユニット508、PU504間のデータ転送を促進する。DMAC及び/又はメモリインターフェース511は、サブプロセッシングユニット508及びPU504に一体化して、別個に配置されうる。更に、DMACの機能及び/又はメモリインターフェース511の機能は、1つ以上の(好ましくは全ての)サブプロセッシングユニット508及びPU504に統合することができる。例えば、DRAM514は、実例で示しているように、チップ外に配置しても、あるいは一体化してオンチップ配置としてもよい。
PU504はデータ及びアプリケーションをスタンドアローン処理できる標準プロセッサなどでありうる。作動時、PU504は、好ましくは、サブプロセッシングユニットによるデータ及びアプリケーション処理をスケジューリングし、調整を行う。サブプロセッシングユニットは好ましくは、単一命令複数データ(SIMD:Single Instruction Multiple Data)プロセッサである。PU504の管理下、サブプロセッシングユニットは並列で、かつ独立して、これらのデータ及びアプリケーション処理を行う。PU504は好ましくは、RISC(Reduced Instruction Set Computing)技術を採用しているマイクロプロセッサアーキテクチャであるパワーPC(PowerPC)コアを用いて実装される。RISCは、単純な命令の組合せを用いて、より複雑な命令を実行する。従って、プロセッサのタイミングは、単純で高速の動作に基づくものであり、マイクロプロセッサがより多くの命令を所定のクロック速度で実行できるようにする。
PU504はサブプロセッシングユニット508により、データ及びアプリケーション処理をスケジューリングし調整を行う、メインプロセッシングユニットの役割を果たしているサブプロセッシングユニット508のうちの、1つのサブプロセッシングユニットにより実装されうる。更に、プロセッサエレメント500内には1つ以上の実装されたPUが存在しうる。なお、オンチップのPUを複数設けるようにしてもよい。
本モジュール構造によれば、特定のコンピュータシステムにおけるPE500の数は、そのシステムが要求する処理能力に基づく。例えば、サーバーにおけるPE500の数は4、ワークステーションにおけるPE500の数は2、PDAにおけるPE500の数は1とすることができる。特定のソフトウエアセルの処理に割当てられるPE500のサブプロセッシングユニット数は、セル内のプログラムやデータの複雑度や規模により決定される。このように、PEはモジュール構造を有していることから拡張性が高く、搭載するシステムのスケール、パフォーマンスに応じて容易に拡張することができる。
モジュラーインターコネクトバス(MIB:Modular Interconnect Bus)512はコヒーレントバスであり、それぞれが複数の同時データ転送をサポートする多数の(ハーフレート)リングとして構成される。
MIC511は、PEと共有メモリ514を実装する複数のメモリバンク間の通信を促進するように動作することが出来る。MIC511は好ましくは、プロセッサ及びI/Oインターフェースに対して、非同期的に動作する。
BIC513はMIB512を論理的拡張部であり、このBIC513によってMIB512とI/Oインターフェース502との間に非同期の相互接続を提供する。BIC513は、他のPE、メモリサブシステム、スイッチ、ブリッジチップなどを取り付けるために、コヒーレントあるいは非コヒーレントの高性能の相互接続を提供する。BIC513は、種々のシステム要件を満たすよう、様々なプロトコルや帯域幅を、2つのフレキシブルなインターフェースに提供する。
インターフェースは、2つのI/Oインターフェース(IOIF0/1)として、あるいはI/OとコヒーレントSMPインターフェース(IOIF及びBIF)のいずれかとしてとして構成されうる。フレキシブルなインターフェースは7送信バイト、5受信バイトで動作する。BICがコヒーレントSMPインターフェースとして動作するように構成されている場合、BICは高性能でコヒーレントな相互接続をPEに提供する。BIC513がI/Oインターフェースとして動作するように構成されている場合、BIC513は高性能(非コヒーレント)の相互接続をPEに提供する。(BIFあるいはIOIFとして動作中の)BIC513は、高速インターフェースを要求する他のアプリケーションにも使用されうる。
BIC513はPEと他のPE、メモリサブシステム、スイッチ、ブリッジチップなどとの間のトランザクションの実施を促進する。BIFやIOIFトランザクションは通常、メモリアクセスリクエスト(データに対するリクエスト)である。メモリアクセスリクエストは、PE内のローカルキャッシュ階層あるいはPEと接続されている外部デバイスによってはサービスすることのできないデータトランザクションの結果もたらされるものである。メモリアクセスリクエストは、1つ以上のトランザクションを要求しうる。トランザクションはマスタデバイス又はキャッシュコヒーレントコントローラ(スヌーパ)により開始され、マスタとスレーブ間に一連のパケット転送をもたらしうる。BIF及びIOIFトランザクションは3つのフェーズに分けられる。即ち、それらはコマンド(ロードやストアなど)、スヌープ、及びデータ(しかしながら全トランザクションがデータフェーズを要求するわけではない)の各フェーズである。
BIC513のBIFやIOIFの特徴は、多くの異なるシステム構成や次世代のコンプライアンスプロセッサをサポートするために、スケーラブルでフレキシブルに動作できることである。BIC513の特徴には、
(i)キャッシュのコヒーレンシーとデータの同期化をサポートするパケットプロトコル(BIFとして動作している場合)、
(ii)オーダリングとコヒーレンシーのためのフラッグを備えたパケットプロトコル(IOIFとして動作している場合)、
(iii)完全にパイプライン化したコマンドトランザクション、データトランザクション、及びレスポンス/応答トランザクション、
(iv)スプリットトランザクション、及び(v)クレジットベースのコマンドやデータのサポート、
が含まれる。
図3を参照すると、論理層(少なくとも2つの論理層0、1を含む)、トランスポート層(同様に少なくとも2つのトランスポート層0、1を含む)、データリンク層(同様に少なくとも2つのデータリンク層0、1を含む)、及び物理リンク層を備えている、BIC513の1つ以上の態様のブロック図が示されている。論理層(及び実施形態によってはトランスポート層)は、コヒーレントSMPインターフェース(BIF)と非コヒーレントインターフェース(IOIF)間のBIC513の動作を変更するように構成されうる。
論理層は、オーダリングやコヒーレントルールを含む、BIF又はIOIFの基本動作を定義する。従って、BIF又はIOIFを使用するPEに取り付けられているデバイスは、論理層の仕様に完全に対応している必要がある。しかしながらアプリケーションによっては、論理層の仕様のサブセットを実装しても、なおBIC513を介してPEと動作できるものもある。論理層の情報は、基本コマンド(アドレス)、データ、及び応答パケットの概要を表す。論理層がコヒーレントSMPインターフェースに対して構成されている場合は、スヌープ応答パケットが許容される。論理層が非コヒーレントインターフェースに対して構成されている場合は、応答パケットのみが許容される。
トランスポート層は、デバイス間にコマンドとデータパケットがどのように転送されるかを定義する。好ましくは、コマンド及びデータパケットは、データリンク層に送るために物理層群(PLGs:Physical Layer Groups)と呼ばれる小さなユニットに分けられる。同様に、トランスポート層は、PLGの分配ペースの決定に使用される、つまり、PLGがどのように分配されるかを決定する、フロー制御機構の定義を含む。トランスポート層は好ましくは、システム又はアプリケーションの必要性に合うようにカスタマイズされうる。
データリンク層は、送信機と受信機間に情報を間違いなく確実に送信する機構を定義する。同様に、データリンク層には、物理リンクに対するトレーニングシーケンス又は初期化が含まれる。また、データリンク層は好ましくは、システム又はアプリケーションの必要性に合うようにカスタマイズされうる。
物理層はI/Oドライバの電気的特徴やタイミングを定義し、また、データリンクエンベロープが物理リンクを通ってどのように送信されるかを記述する。好ましくは、物理リンク層は2セットまでの論理/トランスポート/データリンク層の同時並行処理をサポートし、また、その2つの間の物理層の利用可能な帯域幅の割当が設定可能な方法をサポートする。物理層はまた、プリント回路基板(PCB:Printed Circuit Board)のルーティングやパッケージングのガイドラインを定義する。物理層の目的には、I/Oドライバの物理的特徴(速度、単方向性対双方向性、I/O数など)を隠蔽することと、データリンク層に一貫したインターフェースを与えること、がある。入力/出力機能は、実際に帯域幅のサポートが可能な、Rambus RRAC I/Oを用いて実現されうる。フレキシビリティを高めるために、RRACの送信機と受信機はプロセッサとメモリに対して非同期的に動作し、利用可能な帯域幅をその2つのインターフェース間に設定可能としている。
上述のBICの論理層、トランスポート層、データリンク層、及び物理層の機能や動作を考えると、別のシステム構成と同じく、相対的に高いPEの帯域幅要件がサポートされうる。例えば、物理層はペアにつき5GB/sで実行するように、また、出力帯域幅自体の合計値が35GB、入力帯域幅自体の合計値が25GBを有するように、動作することができる。物理層の帯域幅は、最大帯域幅が出力30GB/s、入力25GB/sである、2つのインターフェース間に分割されうる。各インターフェースの帯域幅は、5GB/sインクリメントで構成されうる。好ましくは、2つのインターフェースの合計値は、物理層の帯域幅の合計値を超えることはできない。
BIC513のインターフェースの更なる詳細を以下に説明する。BIC513はPE、メモリサブシステム、スイッチ、ブリッジチップ等の間のポイント−ツー−ポイントバスであり、また、MIB512の論理的拡張である。BIC513はブリッジチップやスイッチを備えた多くのデバイスの取付けをサポートする。単一の物理デバイスは複数のデバイスタイプのタスクを実行するように動作することができる。これらのデバイスタイプとしては、マスタ、スヌーパ、メモリ、バスアダプタ、I/Oブリッジ、が挙げられる。
マスタは、例えば、コマンドバスを調停し駆動するバスデバイスなどであり、スヌーパは、例えば、他のシステムのキャッシュと、キャッシュデータのコヒーレントを維持するために、コマンドバス上の動きを監視するバスデバイスなどである。バスアダプタあるいはI/Oブリッジはキャッシュを有することができ、その場合は、スヌーパのように機能し、例えばキャッシュデータと他のシステムキャッシュ間のコヒーレントを維持する。
スレーブは、例えば、メモリの読出しあるいは書込みコマンドに応答するバスデバイスなどである。スレーブはメモリ、あるいはI/Oレジスタ、あるいはその両方を有すことが出来る。メモリデバイスはスレーブの一例である。
メモリは、例えば、メモリの読出しあるいは書込みに応答し、コヒーレントオペレーションに対する肯定応答を処理するバスデバイスなどである。メモリの一部がリモートバスに取り付けられている場合、バスアダプタはそのリモートメモリ空間へのメモリアクセスに対して、メモリとしての役割を果たす。
バスアダプタは、例えば、他のバスへのゲートウエイなどであり、同一の、あるいは異なるバスアーキテクチャを有し、また、好ましくはリターンプロトコル(あるいは再実行プロトコル)を用いて、コヒーレントオペレーションをリモートバスへ送る。
I/Oブリッジは、例えば、I/Oバスへのゲートウエイなどであり、排他状態あるいは変更状態においてデータをキャッシュしない。ブリッジではI/Oバスにコヒーレンシーを与えないであろう。しかしながら、ブリッジは、好ましくは、I/Oデバイスにより共有状態でキャッシュされたデータに対してI/Oディレクトリを有し、従って、I/Oバスへコヒーレントオペレーションを送るために再実行プロトコルを使用しない。ブリッジはプログラムI/O(PIO)あるいはメモリマップI/Oデバイスをサポートしうる。
BIC513のアーキテクチャは好ましくは、別々のコマンド、データ、及び(スヌープ)応答パケットに基づく。好ましくは、これらのパケットは独立して実行され、コマンドパケットがデータパケットに先行することが好ましい場合を除いて、コマンドパケットとデータパケット間に時差相関がないスプリットトランザクションを可能にする。リクエスト及び応答はタグ付けされ、アウトオブオーダー応答を可能にする。このアウトオブオーダー応答は、他のバスへのI/Oや、又は非一様メモリアクセス(NUMA:Non-Uuniform Mmemory access)環境では一般的である。
コヒーレントSMF構成では、コマンドパケットはBIF上で実施されるトランザクションを説明するアドレス及び制御情報を有している。アドレスコンセントレーターはコマンドパケットを受信し、処理するコマンドの順番を決定し、コマンドを選択する。選択されたコマンドパケットは、マスタデバイスにより転送コマンド形式でBIFのスレーブデバイスへ転送(送信)される。反映コマンドパケットの受信後、スレーブはスヌープ応答パケット形式でマスタへ応答を送る。スヌープ応答パケットは反映コマンドパケットの受入あるいは拒絶を示す。場合によっては、スレーブはトランザクションに対する最終送信先ではない。これらの場合、スレーブは最終送信先へリクエストを送る責任があり、また、スヌープ応答パケットを生成しない。一般に、コマンドパケットはデータトランザクションに対するリクエストである。コヒーレントの管理や同期化などのリクエストに対して、コマンドパケットはコンプリートトランザクションである。リクエストがデータトランザクションに対するものである場合、制御情報及びリクエストデータを有するデータパケットが、マスタとスレーブ間で転送される。トランスポート層の定義に応じて、コマンドやデータパケットがBIF上の両デバイスにより、同時に送受信されうる。
非コヒーレント構成では、コマンドパケットは好ましくはIOIF上に実行されるトランザクションを説明するアドレス及び制御情報を有している。コマンドパケットはIOIFコマンド形式でマスタによりIOIF上のスレーブデバイスへ送られる。コマンドパケットの受信後、スレーブはIOIF応答パケット形式でマスタへ応答を送る。応答パケットはIOIFコマンドパケットの受入あるいは拒絶を示す。場合によっては、スレーブはトランザクションに対する最終送信先ではないこともある。これらの場合に対して、スレーブは最終送信先へリクエストを送るよう応答できる。一般にIOIFコマンドパケットはデータトランザクションに対するリクエストである。割込みリクエストや割込み再送信オペレーションリクエストなどに対しては、コマンドパケットは、コンプリートトランザクションである。リクエストがデータトランザクションに対するものである場合、制御情報やリクエストデータを含むデータパケットはマスタとスレーブ間に転送される。トランスポート層の定義に応じて、コマンドやデータパケットが、IOIFの両デバイスにより同時に送受信されうる。
BIC513はMIBとI/Oインターフェース間に非同期インターフェースを提供する。これによりBICは、速度一致SRAMバッファ、論理、及び3つのクロックドメインを有する。プロセッサ側はハーフレートで動作し、I/O側はRRACの3分の1の速度で、また小さなディストリビューションネットワークはRRACの半分の速度で動作する。送信機と受信機が高速であるために、RRACとBIC513は較正を必要とする。BIC513の較正には、インターフェースを備えているバイト間の歪みをなくすために、エラスティックバッファが用いられる。
上述のように、BIC513は2つの柔軟なインターフェース、即ち(i)デュアルI/Oインターフェース(IOIF0/1)、及び(ii)I/O及びコヒーレントSMPインターフェース(IOIF及び&BIF)を提供する。これにより、1つ以上のプロセッサエレメントが配置されるシステムコン構成が非常にフレキシブルになる。
例えば、図4に例示しているように、BIC513はPE500と2つのデバイス、つまりデバイス0とデバイス1間にそれぞれの非コヒーレントインターフェースを設けるために、デュアルI/Oインターフェース(IOIF0及びIOIF1)を実装するように動作することができる。この構成では、単一のPE500がIOIF0とIOIF1のそれぞれとデータの送受信をし得る。
上述のように、BIC513の物理層入力/出力帯域幅は、2つのインターフェースの合計が、物理層の帯域幅の合計(出力30GB/s、入力25GB/s、など)を超えない限りは、2つのインターフェース(BIF−BIF、IOIF−IOIF、及び/又はBIF−IOIF)間に分割されうる。デバイス0がグラフィックエンジンなどのスループットが高いデバイス、デバイス1がI/Oブリッジなどのスループットが低いデバイスであると仮定すると、BIC513の帯域幅は、適切な構成を実現するために最新の方法で分割されうる。例えば、グラフィックエンジン(デバイス0)へのIOIF0非コヒーレントインターフェースは、出力30GB/s、入力20GB/sであることができ、一方でI/Oブリッジ(デバイス1)へのIOIF1非コヒーレントインターフェースは(2.5GB/sのインクリメントが可能であると仮定すると)出力2.5GB/s、入力2.5GB/sでありうる。
図5に例示しているように、2つのプロセッサエレメント500は、コヒーレントSMPインターフェース(BIF)構成において、その対応のBIC513を採用している各々によりカスケード接続されうる。各プロセッシングエレメント500のコヒーレントSMPインターフェース(BIF)は、その間にコヒーレントインターフェースを設けるために相互に接続される。各プロセッシングエレメント500のIOIFは、非コヒーレントに他のデバイスとのデータの送受信をしうる。
同様に、BIC513の物理層入力/出力帯域幅がその2つのインターフェース間に分割されうる。デバイス0とデバイス1が、I/Oブリッジなどの相対的にスループットが低いデバイスであると仮定すると、それぞれのBIC513の帯域幅は適切な構成を実現するために、最新の方法で分割されうる。例えば、デバイス0へのIOIF0非コヒーレントインターフェースは、出力5GB/s、入力5GB/s、デバイス1へのIOIF非コヒーレントインターフェースは、出力5GB/s、入力5GB/s、また、プロセッシングエレメント500間のコヒーレントBIFインターフェースは、入力20GB/s、出力20GB/sでありうる。
図6に例示しているように、2つ以上のプロセッサエレメント500は、コヒーレントSMPインターフェース(BIF)構成において、その対応するBIC513を採用している各々によりカスケード接続されうる。中央のプロセッサエレメント500は、2つのBIFを有するBIC513を採用している。各プロセッシングエレメント500のBIFは、その間にコヒーレントインターフェースを設けるために、相互に結合されている。端のプロセッシングエレメント500のIOIFは非コヒーレントに他のデバイスとのデータの送受信を行う。
図7に示すように、2つ以上のプロセッサエレメント500は、I/O及びコヒーレントSMPインターフェース(IOIF及びBIF)構成で、その対応するBIC513を採用している各々によりカスケード接続されうる。各プロセッシングエレメント500のコヒーレントSMPインターフェース(BIF)は、プロセッシングエレメント500を相互に効果的に結合し、その間にコヒーレントインターフェースを設けるスイッチと結合されうる。各プロセッシングエレメント500のIOIFは非コヒーレントにシステムの他のデバイスとデータを送受信し得る。
SPUは、変換された、また、保護されたコヒーレントDMAを通じてメモリシステムをPPUと共有するが、データや命令は、各SPU専用の256kのローカルストレージ(LS)によりサポートされる、専用の実アドレススペースに格納される。SPUはプロセッサエレメントのコンピュータ性能の多くを提供する。8台のプロセッサの各々は、倍精度浮動小数点以外の全演算に対し完全にパイプライン化されている、128ビット幅の2命令同時発行SIMDデータフローを有している。オペランドは128ビット128エントリの統一されたレジスタファイルにより提供される。各SPUはMIBへのフル帯域幅の同時読出しや書込みDMAアクセス、16バイトのSPUのロード及びストア、及び命令(プレ)フェッチ、をサポートする256kBのシングルポートのLSを有している。SPUは関連のMFCへの有効アドレス(EA:Effective Address)を有するDMAコマンドを発行することにより、メインストレージにアクセスする。MFCはEAへ標準のパワーアーキテクチャアドレス変換を採用し、ローカルストレージとメインストレージ間にデータを非同期に転送する。これにより、オーバーラッピング通信と演算処理が出来るようになり、また、リアルタイムの演算を容易にする。DMA、大きなレジスタファイル、及び、標準の順次実行動作を介した、共有メモリへのSPUアクセスは、多目的のストリーミングプログラミング環境を提供する。各SPUは、そのリソースが有効プログラムによってのみアクセスされうるような手法で動作するように動的に構成されうる。
図8に一般的なサブプロセッシングユニット(SPU)508の更なる詳細を例示する。SPU508アーキテクチャは好ましくは、多目的プロセッサ(平均して高性能を広範なアプリケーションに実現するように設計されているもの)と、特殊目的プロセッサ(高性能を単一のアプリケーションに実現するように設計されているもの)間の間隙を埋める。SPU508は、ゲームアプリケーション、メディアアプリケーション、ブロードバンドシステムなどに高性能を実現するように、また、リアルタイムアプリケーションのプログラマーに高度な制御を提供するように設計される。SPU508は、グラフィックジオメトリーパイプライン、サーフェースサブディビジョン、高速フーリエ変換、画像処理キーワード、ストリームプロセッシング、MPEGのエンコード/デコード、エンクリプション、デクリプション、デバイスドライバの拡張、モデリング、ゲーム物理学、コンテンツ制作、音響合成及び処理が可能である。
サブプロセッシングユニット508は2つの基本機能ユニットを有し、それらはSPUコア510A及びメモリフローコントローラ(MFC)510Bである。SPUコア510Aはプログラムの実行、データ操作、などを行い、一方でMFC510BはシステムのSPUコア510AとDRAM514の間のデータ転送に関連する関数を実施する。
SPUコア510Aはローカルメモリ550、命令ユニット(IU:Instruction Unit)552、レジスタ554、1つ以上の浮動小数点実行ステージ556、及び1つ以上の固定小数点実行ステージ558を有している。ローカルメモリ550は好ましくは、SRAMなどの、シングルポートのランダムメモリアクセスを用いて実装される。殆どのプロセッサはキャッシュの導入により、メモリへのレイテンシを小さくする一方で、SPUコア510Aはキャッシュより小さいローカルメモリ550を実装している。更に、リアルタイムアプリケーション(及び本明細書に述べているように、他のアプリケーション)のプログラマーたちに一貫した、予測可能なメモリアクセスレイテンシを提供するため、SPU508A内のキャッシュメモリアーキテクチャは好ましくない。キャッシュメモリのキャッシュヒット/ミスという特徴のために、数サイクルから数百サイクルまでの、予測困難なメモリアクセス時間が生じる。そのような予測困難性により、例えばリアルタイムアプリケーションのプログラミングに望ましい、アクセス時間の予測可能性が低下する。DMA転送をデータの演算処理にオーバーラップさせることで、ローカルメモリSRAM550においてレイテンシの隠蔽を実現しうる。これにより、リアルタイムアプリケーションのプログラミングが制御しやすくなる。DMAの転送に関連するレイテンシと命令のオーバーヘッドが、キャッシュミスにサービスしているレイテンシのオーバーヘッドを超過していることから、DMAの転送サイズが十分に大きく、十分に予測可能な場合(例えば、データが必要とされる前にDMAコマンドが発行される場合)に、このSRAMのローカルメモリ手法による利点が得られる。
サブプロセッシングユニット508のうちの、所定の1つのサブプロセッシングユニット上で実行しているプログラムは、ローカルアドレスを使用している関連のローカルメモリ550を参照する。しかしながら、ローカルメモリ550のそれぞれの場所はまた、システムのメモリマップ全体内に実アドレス(RA:Real Address)も割当てられる。これにより、プリビレッジソフトウエア(Privilege Software)はローカルメモリ550をプロセスの有効アドレス(EA:Effective Address)にマッピングする、ローカルメモリ550と別のローカルメモリ550間のDMA転送を促進する。PU504はまた、有効アドレスを用いてローカルメモリ550に直接アクセスすることができる。好ましい実施形態では、ローカルメモリ550は556キロバイトのストレージを有し、またレジスタ552の容量は128×128ビットである。
SPUコア504Aは、好ましくは、論理命令がパイプライン式で処理される、プロセッシングパイプラインを用いて実装される。パイプラインは命令が処理されるいずれの数のステージに分けられうるが、一般にパイプラインは1つ以上の命令のフェッチ、命令のデコード、命令間の依存度チェック、命令の発行、及び、命令の実行ステップを有している。これに関連して、IU552は命令バッファ、命令デコード回路、依存度チェック回路、及び命令発行回路、を有する。
命令バッファは、好ましくは、ローカルメモリ550と結合され、また、フェッチされる際に一時的に命令を格納するように動作できる、複数のレジスタを備えている。命令バッファは好ましくは、全ての命令が一つのグループとしてレジスタから出て行く、つまり、実質的に同時に出て行くように動作する。命令バッファはいずれの大きさでありうるが、好ましくは、2あるいは3レジスタよりは大きくないサイズである。
一般に、デコード回路は命令を壊し、対応する命令の関数を実施する論理的マイクロオペレーションを生成する。例えば、論理的マイクロオペレーションは、算術論理演算、ローカルメモリ550へのロード及びストアオペレーション、レジスタソースオペランド、及び/又は即値データオペランドを特定しうる。デコード回路はまた、ターゲットレジスタアドレス、構造リソース、機能ユニット、及び/又はバスなど、命令がどのリソースを使用するかを示しうる。デコード回路はまた、リソースが要求される命令パイプラインステージを示す情報を与えることが出来る。命令デコード回路は好ましくは、命令バッファのレジスタ数に等しい数の命令を実質的に同時にデコードするように動作する。
依存度チェック回路は、所定の命令のオペランドがパイプラインの他の命令のオペランドに依存しているかどうかを判断するために試験を行う、デジタル論理回路を含む。その場合、所定の命令はそのような他のオペランドが(例えば、他の命令が実行の完了を許容することにより)アップデートされるまで、実行されることができない。依存度チェック回路は好ましくは、デコーダー回路112から同時に送られる複数の命令の依存度を判断する。
命令発行回路は浮動小数点実行ステージ556、及び/または固定小数点実行ステージ558へ命令を発行するように動作することができる。
レジスタ554は好ましくは、128エントリのレジスタファイルなどの、相対的に大きな統一レジスタファイルとして実装される。これにより、レジスタが足りなくなる状態を回避するよう、レジスタの名前の変更を必要としない、深くパイプライン化された高周波数の実装品が可能になる。一般に、ハードウエアの名前変更には、処理システムのかなりの割合の領域と電力を消費する。その結果、ソフトウエアのループ展開、又は他のインターリーブ技術によりレイテンシがカバーされると、最新のオペレーションが実現されうる。
好ましくは、SPUコア510Aはスーパースカラアーキテクチャであり、これにより1つ以上の命令がクロックサイクル毎に発行される。SPUコア510Aは好ましくは、命令バッファから送られる同時命令の数、例えば2〜3命令(各クロックサイクル毎に2命令あるいは3命令が発行されることを意味する)に対応する程度まで、スーパースカラとして動作する。所望の処理能力に応じて、多数の、あるいは少数の浮動小数点実行ステージ556と、固定小数点実行ステージ558が採用される。好ましい実施形態では、浮動小数点実行ステージ556は1秒あたり320億の浮動小数点演算速度で演算し(32GFLOPS)、また、固定小数点実行ステージ558は演算速度が1秒あたり320億回(32GOPS)となっている。
MFC510Bは、好ましくは、バスインターフェースユニット(BIU:Bus Interface Unit)564、メモリ管理ユニット(MMU:Memory Management Unit)562、及びダイレクトメモリアクセスコントローラ(DMAC:Direct Memory Access Controller)560を備えている。DMAC560は例外として、MFC510Bは好ましくは、低電力化設計とするため、SPUコア510Aやバス512と比べて半分の周波数で(半分の速度で)実行する。MFC510Bはバス512からSPU508に入力されるデータや命令を処理するように動作することができ、DMACに対しアドレス変換を行い、また、データコヒーレンシーに対しスヌープオペレーションを提供する。BIU564はバス512とMMU562及びDMAC560間にインターフェースを提供する。従って、SPU508(SPUコア510A及びMFC510Bを含む)及びDMAC560は、バス512と物理的に、及び/又は論理的に結合されている。
MMU562は、好ましくは、メモリアクセスのために、実アドレスに有効アドレスを変換するように動作することができる。例えば、MMU562は、有効アドレスの上位ビットを実アドレスビットに変換しうる。しかしながら下位のアドレスビットは好ましくは変換不能であり、また、実アドレスの形成及びメモリへのアクセスリクエストに使用する場合には、ともに論理的及び物理的なものと考えられる。1つ以上の実施形態では、MMU562は、64ビットのメモリ管理モデルに基づいて実装され、また、4K−、64K−、1M−、及び16M−バイトのページサイズを有する264バイトの有効アドレススペースと、256MBのセグメントサイズを提供しうる。MMU562は好ましくは、DMAコマンドに対し、265バイトまでの仮想メモリ、242バイト(4テラバイト)までの物理メモリをサポートするように動作することが出来る。MMU562のハードウエアは、8−エントリでフルアソシエイティブのSLBと、256−エントリと、4ウェイセットアソシエイティブのTLBと、TLBに対してハードウエアTLBのミスハンドリングに使用される4×4リプレースメント管理テーブル(RMT:Replacement Management Table)と、を含む。
DMAC560は、好ましくは、SPUコア510Aや、PU504、及び/又は他のSPUなどの、1つ以上の他のデバイスからのDMAコマンドを管理するように動作することができる。DMAコマンドには3つのカテゴリが存在し、それらは、プットコマンド、ゲットコマンド、及びストレージ制御コマンドである。プットコマンドは、ローカルメモリ550から共有メモリ514へデータを移動させるよう動作する。ゲットコマンドは、共有メモリ514からローカルメモリ550へデータを移動させるよう動作する。また、ストレージ制御コマンドには、SLIコマンドと同期化コマンドが含まれる。この同期化コマンドは、アトミックコマンド(atomic command)、信号送信コマンド、及び専用バリアコマンドを有しうる。DMAコマンドに応答して、MMU562は有効アドレスを実アドレスに変換し、実アドレスはBIU564へ送られる。
SPUコア510Aは、好ましくは、DMAC560内のインターフェースと通信(DMAコマンド、ステータスなどを送る)するために、チャネルインターフェース及びデータインターフェースを使用する。SPUコア510Aはチャネルインターフェースを介して、DMAC560のDMAキューへDMAコマンドを送る。DMAコマンドがDMAキューに存在すると、そのコマンドはDMAC560内の発行及び完了論理により処理される。DMAコマンドに対する全てのバストランザクションが終了すると、完了信号がチャネルインターフェースを越えて、SPUコア510Aへ送られる。
プロセッサエレメントは、64ビットのプロセッシングユニット504(又は、パワーアーキテクチャプロセッサのファミリーに対応の、パワープロセッシングユニット(PPU))を備えており、パワーアーキテクチャの整数、浮動小数点、VMX及びMMUユニットを備えたデュアルスレッドコアとして実装される。プロセッサは32kBの命令及びデータキャッシュ、512kBのL2キャッシュ、及びオンチップバスインターフェースロジックを有す。プロセッサは拡張パイプラインを有する、新たに作られた実装品であり、SPUとマッチングするように、低FO4を実現することができる。コアは適度の長さのパイプラインを持つ、性能が向上したインオーダー設計であり、最新のパフォーマンスキャパビリティを提供する。PPUはリアルタイムオペレーションをサポートするために、キャッシュ及び変換テーブル用のリソース管理テーブルで拡張されている。メモリがマッピングされたI/O制御レジスタを通じて、PPUはまたSPUの代わりにDMAリクエストを開始し、SPUのメールボックスとの通信をサポートできる。PPUはまた、パワーアーキテクチャハイパーバイザー拡張も実装しており、スレッド管理サポートを通じて複数の同時並行オペレーティングシステムが、その上で同時に実行されることができる。
図9はPU504の一般的な構造及び機能を例示している。PU504は2つの機能ユニットを有しており、それらはPUコア504Aとメモリフローコントローラ(MFC)504Bである。PUコア504Aは、プログラム実行、データ操作、マルチプロセッサマネージメント関数などを実施し、一方でMFC504Bはシステム100のPUコア504Aとメモリスペース間のデータ転送に関連する機能を実行する。
PUコア504AはL1キャッシュ570、命令ユニット572、レジスタ574、1つ以上の浮動小数点実行ステージ576、及び1つ以上の固定小数点実行ステージ578を有することができる。L1キャッシュは、共有メモリ106、プロセッサ102、又はMFC504Bを介してメモリスペースの他の部分、から受信したデータに対するデータキャッシングの機能を提供する。PUコア504Aが好ましくはスーパーパイプラインとして実装されるので、命令ユニット572は好ましくは、フェッチ、デコード、依存度チェック、発行、などを含む、多くのステージを備えた命令パイプラインとして実装される。PUコア504はまた好ましくは、スーパースカラ構成であり、一方で1つ以上の命令がクロックサイクル毎に命令ユニット572から発行される。高度な処理(演算)能力を実現するために、浮動小数点実行ステージ576と固定小数点実行ステージ578は、パイプライン構成で複数のステージを有する。要求される処理能力に応じて、多数の、又は少数の浮動小数点実行ステージ576と固定小数点実行ステージ578が採用されうる。
MFC504Bは、バスインターフェースユニット(BIU)580、L2キャッシュメモリ、キャッシュ不可能なユニット(NCU:Non-Cachable Unit)584、コアインターフェースユニット(CIU:Core Interface Unit)586、及びメモリ管理ユニット(MMU)588を備えている。殆どのMFC504Bは、低電力化設計とするために、PUコア504Aとバス108と比べて、半分の周波数(半分の速度)で実行する。
BIU580はバス108とL2キャッシュ582とNCU584論理ブロック間にインターフェースを提供する。このために、BIU580はバス108上で、十分にコヒーレントなメモリオペレーションを実施するために、マスタデバイスとして、また同様にスレーブデバイスとして機能する。マスタデバイスとして、BIU580はL2キャッシュ582とNCU584のために機能するため、バス108へロード/ストアリクエストを供給する。BIU580はまた、バス108へ送信されうるコマンドの合計数を制限するコマンドに対し、フロー制御機構を実装しうる。バス108のデータオペレーションは、8ビート要するように設計され、そのために、BIU580は好ましくは128バイトキャッシュラインを有するように設計され、また、コヒーレンシーと同期化の粒度単位は128KBである。
L2キャッシュメモリ582(及びサポートハードウエア論理回路)は、好ましくは、512KBのデータをキャッシュするように設計されている。例えば、L2キャッシュ582はキャッシュ可能なロード/ストア、データプレフェッチ、命令プレフェッチ、命令プレフェッチ、キャッシュオペレーション、及びバリアオペレーションを処理しうる。L2キャッシュ582は好ましくは8ウエイのセットアソシエイティブシステムである。L2キャッシュ582は6つのキャストアウトキュー(6つのRCマシンなど)と一致する6つのリロードキューと、8つ(64バイト幅)のストアキューを備えうる。L2キャッシュ582はL1キャッシュ570において、一部の、あるいは全てのデータのコピーをバックアップするように動作しうる。この点は、処理ノードがホットスワップである場合に状態を回復するのに便利である。この構成により、L1キャッシュ570が少ないポート数でより速く動作することができ、また、より速くキャッシュツーキャッシュ転送ができる(リクエストがL2キャッシュ582でストップしうるため)。この構成はまた、キャッシュコヒーレンシー管理をL2キャッシュメモリ582へ送るための機構も提供しうる。
NCU584は、CIU586、L2キャッシュメモリ582、及びBIU580と連動しており、通常は、PUコア504Aとメモリシステム間のキャッシュ不可能なオペレーションに対して、キューイング/バッファリング回路として機能する。NCU584は好ましくは、キャッシュ抑制ロード/ストア、バリアオペレーション、及びキャッシュコヒーレンシーオペレーションなどの、L2キャッシュ582により処理されないPUコア504Aとの全ての通信を処理する。NCU584は好ましくは、上述の低電力化目的を満たすように、半分の速度で実行されうる。
CIU586は、MFC504BとPUコア504Aの境界に配置され、実行ステージ576、578、命令ユニット572、及びMMUユニット588からのリクエストに対し、また、L2キャッシュ582及びNCU584へのリクエストに対し、ルーティング、アービトレーション、及びフロー制御ポイントして機能する。PUコア504A及びMMU588は好ましくはフルスピードで実行され、一方でL2キャッシュ582及びNCU584は2:1の速度比で動作することができる。従って、周波数の境界がCIU586に存在し、その機能の一つは、2つの周波数ドメイン間でリクエストの送信及びデータのリロードを行いながら、周波数の差を適切に処理することである。
CIU586は3つの機能ブロックを有しており、それらは、ロードユニット、ストアユニット、及びリロードユニットである。更に、データプレフェッチ関数がCIU586により実施され、また好ましくは、ロードユニットの機能部である。CIU586は、好ましくは、
(i)PUコア504AとMMU588からのロード及びストアリクエストを受ける、
(ii)フルスピードのクロック周波数をハーフスピードに変換する(2:1のクロック周波数変換)、
(iii)キャッシュ可能なリクエストをL2キャッシュ582へ送り、キャッシュ不可能なリクエストをNCU584へ送る、
(iv)L2キャッシュ582に対するリクエストとNCU584に対するリクエストを公正に調停する、
(v)ターゲットウインドウでリクエストが受信されてオーバーフローが回避されるように、L2キャッシュ582とNCU584に対する転送のフロー制御を提供する、
(vi)ロードリターンデータを受信し、そのデータを実行ステージ576、578、命令ユニット572、又はMMU588へ送る、
(vii)スヌープリクエストを実行ステージ576、578、命令ユニット572、又はMMU588へ送る、
(viii)ロードリターンデータとスヌープトラフィックを、ハーフスピードからフルスピードへ変換する、
ように動作可能である。
MMU588は、好ましくはPUコア540Aに対して、第2レベルのアドレス変換機能などによりアドレス変換を行う。第1レベルの変換は好ましくは、MMU588よりも小型で高速でありうる、別々の命令及びデータERAT(Effective to Real Address Translation)アレイにより、PUコア504Aにおいて提供されうる。
好ましい実施形態では、PUコア504は、64ビットの実装品で、4−6GHz、10F04で動作する。レジスタは好ましくは64ビット長(1つ以上の特殊用途のレジスタは小型でありうるが)であり、また、有効アドレスは64ビット長である。命令ユニット570、レジスタ572、及び実行ステージ574と576は好ましくは、(RISC)演算技術を実現するために、PowerPCステージ技術を用いて実装される。
本コンピュータシステムのモジュール構造に関する更なる詳細は、米国特許第6,526,491号に解説されており、該特許は参照として本願に組込まれる。
本発明の少なくとも1つの更なる態様によれば、上述の方法及び装置は、図面において例示しているような、適切なハードウエアを利用して実現されうる。そのようなハードウエアは標準デジタル回路などのいずれの従来技術、ソフトウエア、及び/またはファームウエアプログラムを実行するように動作できるいずれの従来のプロセッサ、プログラム可能なROM(PROM)、プログラム可能なアレイ論理デバイス(PAL:Programmable Array Logic)などの、1つ以上のプログラム可能なデジタルデバイスあるいはシステム、を用いて実装されうる。更に、図示している装置は、特定の機能ブロックに分割されて示されているが、そのようなブロックは別々の回路を用いて、及び/あるいは1つ以上の機能ユニットに組み合わせて実装されうる。更に、本発明の様々な態様は、輸送及び/又は配布のために、(フロッピーディスク、メモリチップ、などの)適切な記憶媒体に格納されうる、ソフトウエア、及び/又はファームウエアプログラムを通じて実装されうる。
本明細書において、具体的な実施形態を用いて本発明を記載したが、これらの実施形態は本発明の原理および用途の例を示すものに過ぎないことを理解されたい。このため、添付の請求の範囲に記載した本発明の趣旨および範囲から逸脱することなく、これら例示的な実施形態を種々に変更したり、上記以外の構成を考案し得ることが理解されよう。
本発明の1つ以上の実施形態を採用したマルチプロセッシングシステムの構造を例示したブロック図。 図1のシステムにより採用されうる更なる特徴を例示したブロック図。 本発明の1つ以上の態様によるプロセッシングシステムでの使用に適したインターフェースコントローラのブロック図。 プロセッシング構成を実現するために、マルチプロセッサシステムの1つ以上の態様が採用される方法の一例を例示したブロック図。 更なるプロセッシング構成を実現するために、マルチプロセッサシステムの1つ以上の態様が採用される方法の一例を例示したブロック図。 また更なるプロセッシング構成を実現するために、マルチプロセッサシステムの1つ以上の態様が採用される方法の一例を例示したブロック図。 また更なるプロセッシング構成を実現するために、マルチプロセッサシステムの1つ以上の態様が採用される方法の一例を例示したブロック図。 本発明の1つ以上の更なる態様により採用されうる、図1の一般的なサブプロセッシングユニット(SPU)の構造を例示した説明図。 本発明の1つ以上の更なる態様により採用されうる、図1の一般的なプロセッシングユニット(PU)又はパワープロセッシングユニット(PPU)の構造を例示した説明図。
符号の説明
100 システム
102 プロセッサ
106 共有メモリ
108 バス
112 デコーダー回路
500 プロセッサエレメント
504 プロセッシングユニット
504A コア
508 サブプロセッシングユニット
510A コア
511 メモリインターフェース
512 バス
514 共有メモリ
540A コア
550 ローカルメモリ
554 レジスタ
570 命令ユニット
572 命令ユニット
582 キャッシュ

Claims (17)

  1. マルチプロセッサであって、
    1つ以上の通信バスを介して動作可能となるように相互に結合された複数のプロセッサと、
    コンフィギュラブルなインターフェース回路と、を有し、このインターフェース回路は、(i)マルチプロセッサと1つ以上の外部デバイスとを相互接続することができ、かつ、マルチプロセッサの1つ以上のメモリと、1つ以上の外部デバイスの1つ以上のメモリと、の間のキャッシュのコヒーレンシーを維持することができる、コヒーレントな対称型インターフェースを提供する第1モードで動作するように、または、(ii)マルチプロセッサと1つ以上の外部デバイスとを相互接続することができ、かつ、マルチプロセッサに少なくとも何らかのメモリ保護を与える、非コヒーレントなインターフェースを提供する第2モードで動作するように、構成されている、マルチプロセッサ。
  2. 前記コンフィギュラブルなインターフェース回路は、論理層と、トランスポート層と、物理層とを含む、請求項1記載のマルチプロセッサ。
  3. 前記論理層は、前記第1モードで動作するためのコヒーレンシー・ルールと、前記第2モードで動作するためのオーダリング・ルールとを定義するように構成されており、
    前記トランスポート層は、前記マルチプロセッサと、前記1つ以上の外部デバイスと、の間で送信を行うためのコマンドとデータパケットの構成を定義するように構成されており、かつ、
    前記物理層は、メモリ・アクセス・コマンドと、メモリ・スヌープ・リクエストと、前記マルチプロセッサと前記1つ以上の外部デバイスとの間のデータ伝送と、のタイミング及び電気的特徴を定義するように構成されている、請求項2記載のマルチプロセッサ。
  4. 前記コンフィギュラブルなインターフェース回路は、メモリ・アクセス・コマンドと、メモリ・スヌープ・リクエストと、前記マルチプロセッサと前記1つ以上の外部デバイスとの間のデータ伝送を促進するよう動作可能である、請求項1記載のマルチプロセッサ。
  5. 前記メモリ・アクセス・コマンドと、メモリ・スヌープ・リクエストと、データ伝送は、非同期の個別パケット形式である、請求項4記載のマルチプロセッサ。
  6. 前記パケットは、所望のトランザクションを定義するアドレス情報と制御情報とを含む、請求項5記載のマルチプロセッサ。
  7. 前記コンフィギュラブルなインターフェース回路は、第1インターフェースと第2インターフェースとを含み、各インターフェースは前記第1モードと第2モードで独立して動作するように構成されている、請求項1記載のマルチプロセッサ。
  8. 各々が1つ以上の通信バスを介して、動作可能となるように相互に結合された複数のプロセッサを含む、1つ以上のマルチプロセッサと、
    コンフィギュラブルなインターフェース回路と、を備え、前記コンフィギュラブルなインターフェース回路は、(i)コヒーレントな対称型のインターフェースを提供する第1モードで動作するか、又は、(ii)非コヒーレントなインターフェースを提供する第2モードで動作するように構成されており、かつ、前記コンフィギュラブルなインターフェース回路は、前記マルチプロセッサと1つ以上の外部デバイスとを相互接続することが可能なものであり、
    各マルチプロセッサの前記コンフィギュラブルなインターフェース回路は、第1インターフェースと第2インターフェースとを含み、各インターフェースは前記第1モードと前記第2モードで独立して動作するように構成されている、システム。
  9. 前記第2モードで動作する前記マルチプロセッサの前記第1インターフェースを介して、前記マルチプロセッサのうちの1つと結合されている第1外部デバイスと、
    前記第2モードで動作する前記マルチプロセッサの前記第2インターフェースを介して、前記マイクロプロセッサのうちの1つと結合されている第2外部デバイス、とを更に含む、請求項8記載のシステム。
  10. 各マルチプロセッサの前記第1モードで動作する第1インターフェースを介して相互接続された少なくとも2つのマルチプロセッサと、
    前記第2モードで動作する前記マルチプロセッサの前記第2インターフェースを介して、前記少なくとも2つのマルチプロセッサのうちの一つと結合されている第1外部デバイスと、
    前記第2モードで動作する前記マルチプロセッサの前記第2インターフェースを介して、前記少なくとも2つのマルチプロセッサのうちの他のマルチプロセッサと結合されている第2外部デバイスとを更に有す、請求項8記載のシステム。
  11. 前記第1モードで動作する前記マルチプロセッサの第1インターフェースを介して相互接続された、前記マルチプロセッサのうちの第1及び第2マルチプロセッサを有し、
    前記マルチプロセッサのうちの前記第1プロセッサ及び第3マルチプロセッサを有し、前記第1プロセッサ及び前記第3のマルチプロセッサは、それぞれ前記第1モードで動作する第2インターフェースと第1インターフェースを介して相互接続されており、
    前記第2及び第3マルチプロセッサの前記第2インターフェースは、1つ以上の外部デバイスと相互接続するように動作可能である、請求項8記載のシステム。
  12. 前記第2モードで動作する前記マルチプロセッサの前記第2インターフェースを介して、前記第2及び第3マルチプロセッサのうちの一方と結合されている第1外部デバイスと、
    前記第2モードで動作する前記マルチプロセッサの前記第2インターフェースを介して、前記第2及び第3マルチプロセッサのうちの他方と結合されている第2外部デバイスとを更に含む、請求項11記載のシステム。
  13. マルチ・ポートのデータ・スイッチと、
    前記第1モードで動作する前記マルチプロセッサの第1インターフェースを介して、前記スイッチと結合されている複数のマルチプロセッサとを更に含み、
    前記マルチプロセッサの前記第2インターフェースは、1つ以上の外部デバイスと相互接続するように動作可能である、請求項8記載のシステム。
  14. 前記第2モードで動作する前記マルチプロセッサの前記第2インターフェースを介して、前記マルチプロセッサのうちの1つと結合されている、少なくとも1つの外部デバイスを更に含む、請求項13記載のシステム。
  15. 1つ以上の通信バスを介して動作可能となるように相互に結合された複数のプロセッサを用意するステップと、
    (i)コヒーレントな対称型インターフェースを提供する第1モードで動作するように、又は、(ii)非コヒーレントなインターフェースを提供する第2モードで動作するように、インターフェース回路を構成するステップとを含み、
    前記コヒーレントな対称型インターフェースは、前記マルチプロセッサと1つ以上の外部デバイスとの相互接続が可能で、この相互接続は、前記マルチプロセッサの1つ以上のメモリと、前記1つ以上の外部デバイスの1つ以上のメモリとの間のキャッシュのコヒーレンシーを維持することができるものであり、かつ、
    前記非コヒーレントなインターフェースは、前記マルチプロセッサと1つ以上の外部デバイスとの相互接続を、前記マルチプロセッサに少なくとも何らかのメモリ保護を与えることができるように行うことができるものである、方法。
  16. 少なくとも1つの外部デバイスを前記インターフェースと結合するステップを更に含む、請求項15記載の方法。
  17. メモリ・アクセス・コマンド、メモリ・スヌープ・リクエスト、及び/又は前記プロセッサと前記1つ以上の外部デバイスとの間のデータ伝送、のサービスを行うステップを更に有する、請求項16記載の方法。
JP2005300767A 2004-10-15 2005-10-14 マルチプロセッサシステムで多重構成をサポートする方法及び装置 Active JP4286826B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US61906904P 2004-10-15 2004-10-15

Publications (2)

Publication Number Publication Date
JP2006120147A true JP2006120147A (ja) 2006-05-11
JP4286826B2 JP4286826B2 (ja) 2009-07-01

Family

ID=36148726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005300767A Active JP4286826B2 (ja) 2004-10-15 2005-10-14 マルチプロセッサシステムで多重構成をサポートする方法及び装置

Country Status (9)

Country Link
US (2) US7802023B2 (ja)
EP (1) EP1805627B1 (ja)
JP (1) JP4286826B2 (ja)
KR (1) KR100875030B1 (ja)
CN (1) CN101057223B (ja)
AT (1) ATE498867T1 (ja)
DE (1) DE602005026421D1 (ja)
TW (1) TWI321414B (ja)
WO (1) WO2006041218A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257637A (ja) * 2006-03-23 2007-10-04 Internatl Business Mach Corp <Ibm> アクセラレータ用低コストのキャッシュ一貫性を維持する方法及びシステム

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7233998B2 (en) * 2001-03-22 2007-06-19 Sony Computer Entertainment Inc. Computer architecture and software cells for broadband networks
CA2559584A1 (en) 2004-03-13 2005-09-29 Cluster Resources, Inc. System and method of providing a self-optimizing reservation in space of compute resources
US8782654B2 (en) 2004-03-13 2014-07-15 Adaptive Computing Enterprises, Inc. Co-allocating a reservation spanning different compute resources types
US20070266388A1 (en) 2004-06-18 2007-11-15 Cluster Resources, Inc. System and method for providing advanced reservations in a compute environment
US8176490B1 (en) 2004-08-20 2012-05-08 Adaptive Computing Enterprises, Inc. System and method of interfacing a workload manager and scheduler with an identity manager
US8271980B2 (en) 2004-11-08 2012-09-18 Adaptive Computing Enterprises, Inc. System and method of providing system jobs within a compute environment
US7418541B2 (en) * 2005-02-10 2008-08-26 International Business Machines Corporation Method for indirect access to a support interface for memory-mapped resources to reduce system connectivity from out-of-band support processor
US7467204B2 (en) * 2005-02-10 2008-12-16 International Business Machines Corporation Method for providing low-level hardware access to in-band and out-of-band firmware
US7392350B2 (en) * 2005-02-10 2008-06-24 International Business Machines Corporation Method to operate cache-inhibited memory mapped commands to access registers
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
US9231886B2 (en) 2005-03-16 2016-01-05 Adaptive Computing Enterprises, Inc. Simple integration of an on-demand compute environment
EP1872249B1 (en) 2005-04-07 2016-12-07 Adaptive Computing Enterprises, Inc. On-demand access to compute resources
JP2007148709A (ja) * 2005-11-28 2007-06-14 Hitachi Ltd プロセッサシステム
JP4662474B2 (ja) 2006-02-10 2011-03-30 ルネサスエレクトロニクス株式会社 データ処理デバイス
US8041773B2 (en) 2007-09-24 2011-10-18 The Research Foundation Of State University Of New York Automatic clustering for self-organizing grids
US7873066B2 (en) * 2009-01-26 2011-01-18 International Business Machines Corporation Streaming direct inter-thread communication buffer packets that support hardware controlled arbitrary vector operand alignment in a densely threaded network on a chip
US8487655B1 (en) * 2009-05-05 2013-07-16 Cypress Semiconductor Corporation Combined analog architecture and functionality in a mixed-signal array
US8179161B1 (en) 2009-05-05 2012-05-15 Cypress Semiconductor Corporation Programmable input/output circuit
US9069929B2 (en) 2011-10-31 2015-06-30 Iii Holdings 2, Llc Arbitrating usage of serial port in node card of scalable and modular servers
US9465771B2 (en) 2009-09-24 2016-10-11 Iii Holdings 2, Llc Server on a chip and node cards comprising one or more of same
US9077654B2 (en) * 2009-10-30 2015-07-07 Iii Holdings 2, Llc System and method for data center security enhancements leveraging managed server SOCs
US9054990B2 (en) 2009-10-30 2015-06-09 Iii Holdings 2, Llc System and method for data center security enhancements leveraging server SOCs or server fabrics
US20130107444A1 (en) 2011-10-28 2013-05-02 Calxeda, Inc. System and method for flexible storage and networking provisioning in large scalable processor installations
US8599863B2 (en) 2009-10-30 2013-12-03 Calxeda, Inc. System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US20110103391A1 (en) 2009-10-30 2011-05-05 Smooth-Stone, Inc. C/O Barry Evans System and method for high-performance, low-power data center interconnect fabric
US9876735B2 (en) 2009-10-30 2018-01-23 Iii Holdings 2, Llc Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
US9648102B1 (en) 2012-12-27 2017-05-09 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US9680770B2 (en) 2009-10-30 2017-06-13 Iii Holdings 2, Llc System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US9311269B2 (en) 2009-10-30 2016-04-12 Iii Holdings 2, Llc Network proxy for high-performance, low-power data center interconnect fabric
US10877695B2 (en) 2009-10-30 2020-12-29 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US8625295B2 (en) 2011-01-24 2014-01-07 General Electric Company Fieldbus interface circuit board supporting multiple interface types and terminations
US20150058524A1 (en) * 2012-01-04 2015-02-26 Kenneth C. Creta Bimodal functionality between coherent link and memory expansion
CN105051707A (zh) 2013-04-01 2015-11-11 惠普发展公司,有限责任合伙企业 外部存储器控制器
US11126372B2 (en) 2013-04-01 2021-09-21 Hewlett Packard Enterprise Development Lp External memory controller
US9383932B2 (en) * 2013-12-27 2016-07-05 Intel Corporation Data coherency model and protocol at cluster level
US9727464B2 (en) 2014-11-20 2017-08-08 International Business Machines Corporation Nested cache coherency protocol in a tiered multi-node computer system
US9886382B2 (en) 2014-11-20 2018-02-06 International Business Machines Corporation Configuration based cache coherency protocol selection
US20180365070A1 (en) * 2017-06-16 2018-12-20 International Business Machines Corporation Dynamic throttling of broadcasts in a tiered multi-node symmetric multiprocessing computer system
CN107688471B (zh) * 2017-08-07 2021-06-08 北京中科睿芯科技集团有限公司 一种动态调整数据流架构的资源带宽的计算系统及其方法
NO344681B1 (en) * 2017-09-05 2020-03-02 Numascale As Coherent Node Controller
US20190042455A1 (en) * 2018-05-04 2019-02-07 Intel Corporation Globally addressable memory for devices linked to hosts
KR20200066774A (ko) 2018-12-03 2020-06-11 삼성전자주식회사 반도체 장치

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530932A (en) * 1994-12-23 1996-06-25 Intel Corporation Cache coherent multiprocessing computer system with reduced power operating features
US7933295B2 (en) * 1999-04-13 2011-04-26 Broadcom Corporation Cable modem with voice processing capability
US6487619B1 (en) * 1999-10-14 2002-11-26 Nec Corporation Multiprocessor system that communicates through an internal bus using a network protocol
US6574725B1 (en) * 1999-11-01 2003-06-03 Advanced Micro Devices, Inc. Method and mechanism for speculatively executing threads of instructions
US6526322B1 (en) * 1999-12-16 2003-02-25 Sirf Technology, Inc. Shared memory architecture in GPS signal processing
US6795896B1 (en) * 2000-09-29 2004-09-21 Intel Corporation Methods and apparatuses for reducing leakage power consumption in a processor
US6526491B2 (en) * 2001-03-22 2003-02-25 Sony Corporation Entertainment Inc. Memory protection system and method for computer architecture for broadband networks
US7233998B2 (en) * 2001-03-22 2007-06-19 Sony Computer Entertainment Inc. Computer architecture and software cells for broadband networks
US7394823B2 (en) * 2001-11-20 2008-07-01 Broadcom Corporation System having configurable interfaces for flexible system configurations
US7093080B2 (en) * 2003-10-09 2006-08-15 International Business Machines Corporation Method and apparatus for coherent memory structure of heterogeneous processor systems
US7321958B2 (en) * 2003-10-30 2008-01-22 International Business Machines Corporation System and method for sharing memory by heterogeneous processors
US8108564B2 (en) * 2003-10-30 2012-01-31 International Business Machines Corporation System and method for a configurable interface controller
US7143246B2 (en) * 2004-01-16 2006-11-28 International Business Machines Corporation Method for supporting improved burst transfers on a coherent bus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257637A (ja) * 2006-03-23 2007-10-04 Internatl Business Mach Corp <Ibm> アクセラレータ用低コストのキャッシュ一貫性を維持する方法及びシステム

Also Published As

Publication number Publication date
US7802023B2 (en) 2010-09-21
ATE498867T1 (de) 2011-03-15
TWI321414B (en) 2010-03-01
CN101057223A (zh) 2007-10-17
TW200631355A (en) 2006-09-01
WO2006041218A2 (en) 2006-04-20
EP1805627A2 (en) 2007-07-11
WO2006041218A3 (en) 2007-04-26
KR20070073825A (ko) 2007-07-10
CN101057223B (zh) 2011-09-14
US8010716B2 (en) 2011-08-30
KR100875030B1 (ko) 2008-12-19
US20100312969A1 (en) 2010-12-09
DE602005026421D1 (de) 2011-03-31
EP1805627B1 (en) 2011-02-16
JP4286826B2 (ja) 2009-07-01
US20060092957A1 (en) 2006-05-04

Similar Documents

Publication Publication Date Title
JP4286826B2 (ja) マルチプロセッサシステムで多重構成をサポートする方法及び装置
US7613886B2 (en) Methods and apparatus for synchronizing data access to a local memory in a multi-processor system
JP4421561B2 (ja) ハイブリッドdmaキュー及びdmaテーブルのデータ処理方法、装置及びシステム
JP4451397B2 (ja) Simdプロセッサスライスの有効/無効の制御のための方法ならびに装置
JP4805341B2 (ja) アドレス空間の仮想化のための方法および装置
EP1834245B1 (en) Methods and apparatus for list transfers using dma transfers in a multi-processor system
JP4645973B2 (ja) 命令セットのエミュレーションのための方法、装置及びシステム
JP2006172468A (ja) システム内部のデータ転送を処理する装置および方法
JP4134182B2 (ja) タスク変更アプリケーションプログラミングインタフェースを提供する方法及び装置
WO2006064961A1 (en) Methods and apparatus for address translation from an external device to a memory of a processor
US20080091886A1 (en) Dynamic Path Determination To An Address Concentrator
US7818507B2 (en) Methods and apparatus for facilitating coherency management in distributed multi-processor system
JP2006221644A (ja) マルチプロセッサシステムにおいて命令を処理するための方法と装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090115

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090115

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090325

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4286826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250