JP2003510719A - 共通の通信インターフェイスを有するモジュール型計算アーキテクチャ - Google Patents

共通の通信インターフェイスを有するモジュール型計算アーキテクチャ

Info

Publication number
JP2003510719A
JP2003510719A JP2001526717A JP2001526717A JP2003510719A JP 2003510719 A JP2003510719 A JP 2003510719A JP 2001526717 A JP2001526717 A JP 2001526717A JP 2001526717 A JP2001526717 A JP 2001526717A JP 2003510719 A JP2003510719 A JP 2003510719A
Authority
JP
Japan
Prior art keywords
node
common communication
communication interface
interface
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001526717A
Other languages
English (en)
Inventor
デネロフ,マーチン,エム
ディーン,スティーブ
マッカン,ティモシー,エス
ブレナン,ジョン
パリイ,デービッド,エム
マシェイ,ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Graphics Properties Holdings Inc
Original Assignee
Silicon Graphics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Silicon Graphics Inc filed Critical Silicon Graphics Inc
Publication of JP2003510719A publication Critical patent/JP2003510719A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17337Direct connection machines, e.g. completely connected computers, point to point communication networks
    • G06F15/17343Direct connection machines, e.g. completely connected computers, point to point communication networks wherein the interconnection is dynamically configurable, e.g. having loosely coupled nearest neighbor architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17356Indirect interconnection networks
    • G06F15/17368Indirect interconnection networks non hierarchical topologies
    • G06F15/17381Two dimensional, e.g. mesh, torus

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 大域的共有アドレス空間で動作する1組の機能的に独立の処理ノードとなるように編成された分散型共有メモリコンピュータアーキテクチャ。各ノードは、1個またはそれ以上のローカルプロセッサ、ローカルメモリ、及びメッセージプロトコルによりシステム内の他のモジュールと通信するための共通通信インターフェイスを有する。共通通信インターフェイスは、ノードを1またはそれ以上の外部処理ノード、外部ルーティングモジュール、入出力モジュールに作動的に結合するための単一の高速通信センターを各ノード内に提供する。共通通信インターフェイスは、システムの計算資源を全体的に破壊せずにシステムのノードを増分しスワップする能力を与える。

Description

【発明の詳細な説明】
【0001】 本発明は、一般的に、高速計算システムの分野に関し、さらに詳細には、多種
多様なモジューラー型計算トポロジーを可能にする、柔軟性と増分拡張性を備え
た共通通信インターフェイスを有するコンピュータアーキテクチャに関する。
【0002】
【発明の背景】
スーパーコンピュータとして知られる現代の高性能コンピュータには、プロセ
ッサ及び入出力ポートのような計算資源を増加させる強いニーズがある。従って
、業界では、多くの計算資源をサポートする、多種多様な計算トポロジーを有す
る高速計算システムの開発が間断なく行われている。しかしながら、既存の計算
システムを、現在の構成をばらばらにせずに、計算資源が増加した大きいトポロ
ジーに増分的に拡張するのは、多くの場合困難である。加えて、単一の製造ライ
ンからローエンドのスーパーコンピュータと、中位のスーパーコンピュータの両
方を含む多種多様なスーパーコンピュータを製造するのも、多くの場合困難であ
る。従って、当該技術分野では、高速計算システムをモジューラー方式で構成し
増分的に拡張するのが容易なコンピュータアーキテクチャが求められている。
【0003】
【発明の概要】
本発明は、各々が少なくとも1つのプロセッサを有する多数のノードを有する
ように編成された分散型共有メモリコンピュータアーキテクチャに関する。本発
明によると、各ノードは、システムの全体的計算資源を破壊することなくシステ
ムのノードを増分的に拡張しスワップする能力を与える共通通信インターフェイ
スを有する。さらに詳細には、各ノード内の共通通信インターフェイスは、ロー
カルメモリをローカルプロセッサに接続し、システム規模のルーティングネット
ワークと通信するためのポートと、入出力サブシステムと通信するためのポート
とを提供する。このようにすると、各計算トポロジーは、このアーキテクチャに
よりサポートされる小さなトポロジーのスーパーセットとなる。このようにして
、このアーキテクチャに基づく計算システムは、既存のコンポーネントを再構成
することなく容易且つ増分的に拡張することが可能である。
【0004】
【好ましい実施例の詳細な説明】
本発明は、以下の説明を読めばわかるように、発明の背景で述べた問題点及び
欠点を解消するものである。本発明は、各々が少なくとも1つのプロセッサを有
する多数のノードを有するように編成された分散型共有メモリコンピュータアー
キテクチャに関する。本発明によると、各ノードは、システムの全体的計算資源
を破壊することなくシステムのノードを増分的に拡張しスワップする能力を与え
る共通通信インターフェイスを有する。さらに詳細には、各ノード内の各通信イ
ンターフェイスは、ローカルメモリをローカルプロセッサに接続し、システム規
模のルーティングネットワークと通信するためのポートと、入出力サブシステム
と通信するためのポートとを提供する。
【0005】 以下に詳述するように、ノードを通信可能なように、多種多様なトポロジーに
結合するために、アーキテクチャ内で独立のルーティングモジュールを使用する
。その結果、高い柔軟性と拡縮性とを有する高速コンピュータを容易に構成する
ことができる。コンピュータアーキテクチャは、単一のアドレス空間を共有し、
高速コンピュータの全ノードにわたるキャッシュコヒーレンシーを必要とする、
最大4096個の多数のプロセッサを備えた計算システムの構成に特に有用であ
る。
【0006】 このように、これらの処理ノード及びルーティングモジュールは、高速計算シ
ステムを構成するための基本的構成ブロックであるため集合的に「ブリック」と
呼ぶが、これらは、多様なトポロジーを形成するように相互接続するのが容易で
ある。計算システムは、多数の処理ノードと、他のモジュールとの間の固定した
関係が不要であるような、処理ノードと、他のモジュールの任意的な組合せであ
る。さらに、以下において詳述するように、このアーキテクチャによりサポート
される各トポロジーは、このそのアーキテクチャによりサポートされる小さなト
ポロジーのスーパーセットである。表1は、コンピュータアーキテクチャ内で使
用する種々のモジュールを示す。
【0007】 表 1 構成要素 説明 Cブリック−MIPS CPUノードはMIPSプロセッサ Cブリック−Merced CPUブリックMercedプロセッサ Pブリック I/Oブリックは14個のPCIスロット Iブリック I/Oブリックはエントリレベルシステム の完全なI/Oニーズを満足する Xブリック I/Oブリックは4つのXIOを提供 Rブリック ルーティングノードは8個のルーティング スロットを提供 電源部 モジュールの所与のラックに給電 Dブリック ディスクボックスと呼ぶディスケットまたは ディスクドライブモジュール 図1A及び図1Bは、上述の機能的に独立のブリックを種々のトポロジーにな
るように組合せて高速計算システムを構成する種々の実施例を示す。例えば、図
1Aは、3つのコンピュータトポロジー10、15及び20を示す。トポロジー
10は、4つのプロセッサ(P)が単一の共通通信インターフェイス(BR)に
より接続された単一のノードを示す。トポロジー20は、8個のプロセッサより
成る2つのノードがそれぞれの共通通信インターフェイスを介して通信可能なよ
うに結合されたトポロジーである。トポロジー30は、16個のプロセッサより
成る4つのノードが単一のルーティングモジュールを介して通信可能なように結
合されたトポロジーである。図1Bは、本明細書で説明する柔軟性を備えたアー
キテクチャにより、512個のプロセッサを有する多数のノードが相互接続され
た拡張ハイパーキューブコンピュータトポロジーを示す。
【0008】 図1A、1Bに示すように、各コンピュータトポロジーは、そのアーキテクチ
ャによりサポートされた小さなトポロジーのスーパーセットである。さらに詳述
すると、トポロジー15は2つのトポロジー10を含むスーパーセットである。
同様に、トポロジー20は、4つのトポロジー10または2つのトポロジー15
を含むスーパーセットである。このように、ここで説明する本発明のアーキテク
チャに基づく計算システムは、既存のコンポーネントの構成を変更せずに、増分
的に拡張することが容易である。
【0009】 図1Cは、機能的に独立のブリック及び本発明のアーキテクチャを用いて構成
し、ラックに取り付けた3つの高速計算システムの斜視図である。さらに詳細に
は、高速計算システム100は、高速コンピューティングへの低コストの入口部
分であり、電源モジュール102、多数のプロセッサを有する2つの処理ノード
(Cブリック)104、単一のルーティングモジュール(Rブリッジ)106及
び単一の入出力モジュール(Iブリック)108を有する。一方、高速計算シス
テム120は、2つの処理ノード(Cブリック)、単一のルーティングモジュー
ル(Rブリック)126、単一の入出力モジュール(Iブリック)128、2つ
の電源モジュール122及び3つの駆動部(Dブリック)129を有する中間的
システムである。高速計算システム130は、電源モジュール132、ネットワ
ーク接続モジュール133、4つの処理ノード(Cブリック)134及びルーテ
ィングモジュール(Rブリック)136を有するハイエンドのコンピュータであ
る。残り4つの入出力モジュールは、Pブリック、Iブリック及びXブリックの
任意の組合せでよい。
【0010】 図1Dは、高性能処理システム140の四半部を示す。24個のうち6個の垂
直ラックを示す。図示の実施例において、計算システム140は、1つのラック
につき最大8個のCブリックで、最大16個のラックに合計512個のCPUを
備えることができる。加えて、システム140は、1つのラックにつき2または
3個のルーティングモジュールと、1つのラックにつき多数の電源部を備えるこ
とができる。計算システム140はさらに、1乃至8個のP、IまたはXブリッ
クより成る多数の入出力ラック142を有する。
【0011】
【処理ノード(Cブリック)】
図2は、本発明の処理ノード200の1つの実施例である。Cブリックと呼ぶ
処理ノード200は、4個のローカルCPU、ローカルメモリ及び独立の分散モ
ジュールとして動作するに必要な関連の電子装置を含む機能的に独立のモジュー
ルである。Cブリックは、以下のもの、即ち、1)システムコントローラと、ブ
リックとの間の通信のための高速シリアルチャンネル、2)内部のレベル1(L
1)システムコントローラとの通信のための高速シリアルチャンネル、及び3)
入出力ブリックのL1システムコントローラと通信するためのシリアルチャンネ
ルの外部高速シリアルコンソールポートを提供する。
【0012】 図示の実施例は、4個のCPU215と、8個のメモリスロット222とを有
する。メモリスロット222は、10個のSDRAMチップを2列サポートする
DIMMモジュールを受けるように設計されている。前方装着ファン228は、
前からの取り外すことができ、冗長で、交換可能である。Cブリック200の後
部の外部コネクタ230は、電源、ルーティングネットワーク、I/O及びUS
Bのための接続部を提供する。以下に述べるように、USBコネクタは、ルーテ
ィングモジュールのない小さなシステムのオプションとしてのレベル2(L2)
システムコントローラとの接続に使用される。
【0013】 処理ノード200は、システムの全体的計算資源を破壊せずにシステムのノー
ドを増分的に拡張しスワップする能力を与える共通通信インターフェイス235
を有する。さらに詳細には、ノード200内の共通通信インターフェイス235
は、スロット222に存在するローカルメモリをローカルプロセッサ215と接
続し、以下に詳述するように、コネクタ230に高速インテリジェントインター
フェイスを提供する。
【0014】
【ルーティングモジュール(Rブリック)】
図3は、ここではRブリックと呼ぶ、ルーティングモジュール300を示すブ
ロック図である。Rブリックは、以下のもの、即ち、1)内部L1システムコン
トローラと、内部ルータASICとの間の通信のための高速シリアルチャンネル
、レベル2(L2)システムコントローラ及びレベル3(L3)システムコント
ローラとの通信のためのUSBスレーブポート、及び3)5個のマスターポート
を有するUSBハブを提供する。
【0015】 Rブリック300は、単一のルータASIC310、電源回路312、インタ
ーフェイスコネクタ320、322、レベル2(L2)システムコントローラ3
15、USBハブ325、及びUSPアップストリームコネクタ327を有する
。コネクタ320、322はDネットコネクタであり、これらは本発明に従って
、種々のモジュールを容易に相互接続し、交換するのを可能にする。Rブリック
300の4つのDネットコネクタ320は、L2システムコントローラのUSB
信号送信をサポートする。別の4つのDネットコネクタ322は、ルータ間の全
ての通信をサポートする。従って、この実施例によると、4個のCブリックがコ
ネクタ320によりRブリック302に結合可能であり、一方、4個の別のルー
ティングモジュールがコネクタ322を介してRブリック300に接続可能であ
る。別の実施例では、ルーティングモジュール300はただ6個のポートを有す
る。
【0016】
【入出力モジュール(Iブリック、Pブリック及びXブリック)】
本発明のコンピュータアーキテクチャにより、Iブリック、Xブリック及びP
ブリックの3個の入出力モジュールが提供される。Iブリックは、基本的システ
ムの全ての入出力ニーズを満足するかまたは大型でより複雑なシステムのブート
条件を満たすためのものである。Pブリックは、12個の64ビットPCIスロ
ットを提供する。Xブリックは、高さが半分の4個のXIOスロットを提供する
入出力拡張ブリックである。
【0017】 図4は、Xブリックと呼ぶ、入出力モジュールの斜視図である。Xブリックは
、以下の機能、即ち、1)Cブリック内の内部L1システムコントローラとの通
信のためのシリアルチャンネル、及び2)入出力カードの接続状況を読み取って
レポートする手段を提供する。さらに詳しくは、Xブリック400は、ボックス
402の後部から水平にプラグ接続される4個の入出力カード404を含む。単
一のホストインターフェイスカードも後部から水平にプラグ接続される。Xブリ
ック400の中央に垂直に取り付けられる中間面のPCA410は、I/Oを制
御するための単一のXブリックASIC412を有する。
【0018】 図5は、Iブリックと呼ぶ、入出力モジュール500の斜視図である。Iブリ
ック及びPブリックは、以下の機能、即ち、1)Cブリック内の内部L1コント
ローラとの通信のためのシリアルチャンネル、2)PCIカードの接続状況を読
み取ってレポートする手段、3)PCIスロットの給電を制御する手段、及び4
)電源部の状態を制御しモニターする手段を提供する。図示の実施例において、
Iブリック500は、6個のPCI入出力ボード512と、CDROM/DVD
プレイヤ510とを有する。電源ボード522は、I/Oを制御するための単一
のXブリックASICを格納する。1対のXTalk入出力ポートは、入出力モ
ジュール500の後部に位置し、Iブリック500を1個または2個のCブリッ
クと接続する。1つの実施例において、Iブリック500は、2個の取り外し可
能な光ファイバチャンネルハードドライブと、単一の取り外し可能なメディアド
ライブ510とを有する。電源ボード522は、Iブリック500の前部から水
平に取り付け可能であり、入力として直流48ボルトを受け、システムボード、
PCIスロット512、及びディスクドライブ510のための必要な直流電圧を
発生する。
【0019】 図6は、Pブリックと呼ぶ出力モジュール600の1実施例であり、このモジ
ュールはIブリック500より強力な入出力モジュールである。さらに詳細には
、Pブリック600は、3個のXブリックASICを格納し、12個のPCIス
ロット602を提供する。
【0020】
【ラック及び電源部】
図7は、本願で説明する1またはそれ以上の独立のモジュールを受けるに好適
なコンピュータラック700の斜視図である。例えば、ラック700は、1個ま
たはそれ以上のCブリック、Pブリック、IブリックまたはXブリックを受容で
きる。このようにして、拡縮性を有するコンピュータを容易に製造できる。短い
ラックまたは2列ラックのようなラック700の他の実施例も可能である。
【0021】 図8は、電源部と呼ぶ、電源モジュール800を示す斜視図である。1つの実
施例において、電源部800は、単相交流入力と、直流48ボルトの出力毎に9
50ワットの電力を供給する最大6個の電源を保持する。図8に示すように、電
源部800は、モジュールの後部に8個のコネクタ804を有する。これらのコ
ネクタは、モニター信号と共に直流48ボルトの電源を運ぶ。Pベイ804はさ
らに、各電源をモニターするための8個のシリアルインターフェイスを有する。
上述の分散型アーキテキチャは、1つの実施例では、48ボルトの給電を必要と
する。
【0022】
【システム制御及び相互接続トポロジー】
本発明の分散型アーキテクチャは、3つのレベルより成るシステム管理のため
の階層を有する。アーキテクチャの心臓部は、Dブリックを除き本発明のアーキ
テクチャの各ブリック内に存在するL1システムコントローラ(図示せず)であ
る。このコントローラは、マイクロコントローラ、システムモニターチップ、及
びスキャンインターフェイスチップと、シリアルEPROM、バス拡張手段及び
それが制御する装置に特定される通信インターフェイスの集合体を有する。L1
システムコントローラは、電力制御及びシーケンシング、環境制御及びモニター
、リセットの始動及びそのホストブリックの識別及び構成情報の記憶を担当する
。L1システムコントローラはまた、ユーザにコンソール/診断及び走査インタ
ーフェイスを提供する。
【0023】 図9は、上述した機能モジュールより成る典型的な高速計算システムの配線図
である。L2システムコントローラ904は、ラックレベルのシステム制御を行
う。即ち、Cブリックを備えた各ラックには、1個のL2システムコントローラ
904が存在する。さらに、L2システムコントローラ904は、ラックのため
の中央通信情報センターとして働き、その特定のラック及び関連の入出力ラック
の全てのブリックを制御する。1つの実施例において、各L2システムコントロ
ーラ904は、タッチスクリーンディスプレイと、イサーネット及びモデムポー
トとを備え、システムの中央制御ポイントとして使用可能である。第3レベルの
制御は、L3システムコントローラ906であり、システム全体の中央制御ポイ
ントを提供し、この実施例では独立型ワークステーションまたはラップトップコ
ンピュータである。
【0024】 計算システム900は、2個のルーティングモジュール910(Rブリック)
と、8個の処理ノード914(Cブリック)とを収納する第1のラック902を
備えている。各ルーティングモジュール910には4個のポートがあるため、4
個のCブリックをルータに結合することができる。各Cブリック914は、単一
の高速USBケーブルによりルーティングモジュール910の1つと接続されて
いる。同様に、各ルーティングモジュール914は、USbケーブルを介してL
2システムコントローラ904と接続されている。計算システム900はさらに
、メタルータ912を有する。第1のCPUラック902もまた、ローカルネッ
トワーク920を介して別のCPUラックと接続する単一のイサーネットハブ9
14を有する。加えて、L3システムコントローラは、ネットワーク925を介
して他のコンピュータと接続可能である。
【0025】 各ブリック内のL1システムコントローラは、ブリック内の全ての機能に対す
る直接の低レベル通信と制御を行う。ほとんどのシステムにおいて、それは、上
流のL2システムコントローラ904に対してスレーブとして働く。しかしなが
ら、処理モジュールのCブリックが小数に限定された1つの実施例では、L2シ
ステムコントローラが存在しない場合、1つのL1システムコントローラが、全
体のシステムのマスターコントローラとして働くことができる。
【0026】 上述したモジュール及びそれらの相互接続手段は、幾つかの異なる通信パスを
有する多種多様なトポロジーを可能にする。例えば、L3システムコントローラ
は、CブリックのL1システムコントローラと直接通信可能である。Cブリック
は上流に標準のUSBポートを有するため、L3はL2がなくともシステムと直
接インターフェイスできる。L2が存在する場合、Cブリックの上流のUSBポ
ートは、CブリックのL1がRブリックのL1との通信のためにそのUSBチャ
ンネルを使用中であるため、アクセス不能にされる。また、L3システムコント
ローラはL2システムコントローラと直接通信することが可能である。上述した
ように、これは、ネットワークハブを介するネットワーク接続により通常行われ
る。あるいは、L3システムコントローラを、クロスオーバーツイストペアケー
ブルによりL2と直接接続することが可能である。ルーティングモジュールが計
算システムに含まれている場合、L2システムコントローラが必要である。
【0027】 L2システムコントローラは、特定のラックのUSDホストとして働く。上述
したように、ルーティングモジュールのL1コントローラはUSBハブを含み、
このハブはUSBを駆動して、Cブリックに接続された4個のポート上で、ロー
カルL1へ、またL1から信号伝送を行うことができる。従って、Rブリックは
Cブリックに直接結合可能である。RブリックはUSBハブを備えているが、こ
のハブの下流ポートはシールドペア線によりCブリックのL1システムコントロ
ーラに接続される。システムによっては、Cブリックを別のCブリックと直接通
信させることができる。例えば、ルーティングモジュールが存在せず、L2及び
L3システムコントローラも存在しない場合、USBは通信機構として使用でき
ない。従って、最大で2個のCブリックを有するシステムでは、ブリックのL1
システムコントローラは、ケーブルによりRS422を介して相互に通信する。
加えて、CブリックのL1システムコントローラは入出力ブリックのL1システ
ムコントローラに直接結合することが可能である。Cブリック及び入出力ブリッ
クはルータのないシステムでは通信する必要があるため、それらは同様にケーブ
ルによりRS422を介して通信するように構成される。
【0028】 図10、11及び12は、上述した相互接続による可能なトポロジーを示す。
相互接続トポロジー1005は、ルーティングモジュールがなく、従ってCブリ
ックがIブリックに直接接続された計算システムを示す。図示のように、これら
の相互接続トポロジーは、標準ケーブルによるシリアル接続420を用いる。ト
ポロジー1010は、L3システムコントローラはあるが、L2システムコント
ローラがない計算システムを示す。ここでは、L3システムコントローラはCブ
リックに直接接続するためのUSBを用いる。
【0029】 図11において、相互接続トポロジー1115は、3個以上のCブリックを備
えているため、ルーティングモジュールを必要とし、この場合、L2システムホ
ストが必要とされる計算モジュールを示す。L2システムコントローラはUSB
ホストであり、ルーティングモジュールはUSBハブである。図12において、
相互接続トポロジー1208は、多数のL2システムコントローラが10ベース
Tハブを介して接続された計算システムを示す。ここでは、L3システムコント
ローラは、オプションとして10ベースTハブに接続されている。
【0030】
【共通通信インターフェイス】
図13は、上述した種々の独立モジュールを相互接続するための本発明による
高速共通通信インターフェイス1300の1つの実施例である。本発明によると
、共通通信インターフェイス1300は、種々のモジュールを公正且つ効率的な
態様により接続する。計算システム内の各ノードは共通通信インターフェイス1
300を備えているが、このインターフェイスは、以下に詳述するように、高速
計算システムの分散型モジュール全体の中で「バーチャル」なシステムバスを拡
張する。このようにすると、処理ノード及び他のモジュールを計算システムに付
加したり、取り外したりすることが容易にできる。
【0031】 共通通信インターフェイス1300は、4個の別個のインターフェイスを有す
る。プロセッサインターフェイス1305は、1個またはそれ以上の処理モジュ
ールとインターフェイスする。メモリンターフェイス1310は大域メモリの一
部とインターフェイスし、計算システムにわたってキャッシュコヒーレンシーを
維持するためのものである。入出力インターフェイス1315は、入出力サブシ
ステムと通信するものである。共通通信インターフェイス1300はさらに、ル
ータモジュールとインターフェイスするためのルータインターフェイス1320
を有する。
【0032】 この共通通信インターフェイス1300は、内部に、そのインターフェイスを
管理するための5個のインターフェイス制御ユニットを有する。さらに詳細には
、共通通信インターフェイス1300は、プロセッサインターフェイスユニット
1325、メモリインターフェイスユニット1330、入出力インターフェイス
ユニット1335、ネットワークインターフェイスユニット1340及びローカ
ルチップ資源とインターフェイスするためのローカルブロック1345を有する
。このようにして、共通通信インターフェイス1300は、4つのタイプのイン
ターフェイスと、ローカルチップ資源へのインターフェイスとの間の標準的な接
続を行う。
【0033】 ノード1300のインターフェイス制御ユニットは、インターフェイス間で高
いデータ速度でデータを交換するための中央クロスバー1350により接続され
ている。このようにして共通通信インターフェイス1300は、単一のアドレス
空間を共有する分散型モジューラー計算システムを可能にする。1つの実施例に
おいて、共通通信インターフェイス1300は、最大で256個の処理ノードを
サポートし、これらの処理ノードは、1つの実施例では、それぞれ最大4個のプ
ロセッサより成る。共通通信インターフェイス1300内の各インターフェイス
制御ユニットは、クロスバー1350を介してメッセージを送り且つクロスバー
からメッセージを受信することにより通信する。モジュールが使用するメッセー
ジは、パケット化ネットワークプロトコルに従うものである。1つの実施例にお
いて、2つのタイプのメッセージ、即ち、要求及び応答がサポートされる。この
構成により、計算システムはシステムのデッドロック状況を回避し、キャッシュ
コヒーレンシーを促進する。メッセージが入出力インターフェイス1335また
はネットワークインターフェイス1330を介して到達すると、そのメッセージ
は内部フォーマットに変換される。メッセージがこれらインターフェイスのうち
の1つを介して送信される場合は、逆である。
【0034】 共通通信インターフェイス1300の内部メッセージフォーマットは、1群の
ビットであるヘッダーフレームより成り、このフレームは概念的及び論理的に単
一ユニットである。このヘッダーフレームの次には、オプションとして、1また
はそれ以上のデータフレームが続き、これらのフレームはメッセージの合計64
乃至1024個のビットのデータを運ぶ。各フレームが共通通信インターフェイ
ス1300により受信されるか、あるいはそれから送信されると、そのフレーム
内に埋め込まれた制御信号は、以下の情報の全部または一部を示す。即ち、1)
フレームの行先がいずれのインターフェイス制御ユニットであるか、2)そのフ
レームが要求であるかまたは応答であるか、そして、3)そのフレームにより現
メッセージが終了するか否かを示す情報である。
【0035】 図14は、共通通信インターフェイス1300の内部メッセージフォーマット
の1つの実施例である。さらに詳述すると、この図14は、制御ビット、ヘッダ
及びデータフォーマットを示す。ヘッダ内では、ソースは最上位の11ビットに
より示す。1つの実施例において、ソースはデバイス及びノードを同定する。
【0036】 共通通信インターフェイス1300のクロスバー1350は、共通通信インタ
ーフェイス1300の各ユニットをクロスバー1350と接続する物理的チャン
ネルで多重化される2つのバーチャルチャンネルに沿う、上述した内部フォーマ
ットでのメッセージの流れをサポートする。クロスバー1350は、軽負荷の下
で待ち行列バッファバイパス経路により最小の待ち時間が得られるように、また
、重負荷の下でバーチャルチャンネルを介する調停要求により最大のスループッ
トが得られるように設計される。上述した計算モジュールを種々のトポロジーで
相互接続するために複数のノード135を接続するのは、この態様による。
【0037】 図15は、共通通信インターフェイス1300のクロスバー1350の1つの
実施例を示すブロック図である。この図において、デュアルFIFOとは、単一
のバッファメモリ構造内の2個のバーチャルチャンネルFIFOのことである。
カッドFIFOとは、類似の構造内の4個のバーチャルチャンネルFIFOのこ
とである。データパスクロスバー1505は、6出力クロスバーによる8入力を
含む。クロスバーデータパスは全ての入力及び出力に対して67ビット幅であり
、5ナノ秒のクロックで1ポート当たり1.6GB/秒のデータ帯域幅を与える
。出力待ち行列は、出力されるユニットメッセージのバッファリングを行い、デ
ータパス資源を調停する。入力待ち行列は、クロスバー1350を通過したがそ
の行先ユニットによりまだ処理されていないデータのバッファリングを行う。従
って、それらの主要な役割は、クロスバー1350と、受信ユニットとの間の速
度の整合と、同期を行うことである。調停手段1510は、バイパス調停による
無競争ポートの短い待ち時間での調停と、資源が飽和状態になると波面調停によ
る高効率の利用を可能にする。
【図面の簡単な説明】
【図1A】 図1Aは、高速計算システムを形成するために本発明のアーキテクチャの機能
的に独立のモジュールを如何に組合せて種々のトポロジーにするかを示す種々の
実施例の論理ブロック図である。
【図1B】 図1Bは、高速計算システムを形成するために本発明のアーキテクチャの機能
的に独立のモジュールを如何に組合せて種々のトポロジーにするかを示す種々の
実施例の論理的ブロック図である。
【図1C】 図1Cは、本願に示す柔軟性と拡縮性を備えたモジュール形システムにより構
成した3つの高速計算システムを示す。
【図1D】 図1Dは、本願に示すモジュールに好適な6個の垂直ラックを有する高性能処
理システム140を示す。
【図2A】 図2Aは、Cブリックの1つの実施例であり、このモジュールは4個のCPU
と、8個のメモリスロットとを有する。
【図3】 図3は、Rブリックと呼ぶルータモジュール300の斜視図である。
【図4】 図4は、Xブリックと呼ぶ入出力モジュールの斜視図である。
【図5】 図5は、Iブリックと呼ぶ入出力モジュール500の斜視図である。
【図6】 図6は、Iブリック500より強力な入出力モジュールである、Pブリックと
呼ぶ出力モジュール600の1つの実施例を示す。
【図7】 図7は、本願に示す1個またはそれ以上の独立のモジュールを受けるに好適な
コンピュータラック700を示す。
【図8】 図8は、Pベイと呼ぶ電源モジュール800の斜視図である。
【図9】 図9は、柔軟性及び拡縮性を備えた独立の機能モジュールより成る典型的な高
速計算システムの配線図である。
【図10】 図10は、上述の相互接続ルールに基づき可能なトポロジーを示す。
【図11】 図11は、上述の相互接続ルールに基づき可能なトポロジーを示す。
【図12】 図12は、上述の相互接続ルールに基づき可能なトポロジーを示す。
【図13】 図13は、アーキテクチャの各ノード内の共通通信インターフェイスの一実施
例であり、それらの柔軟で拡張的な相互接続を可能にする。
【図14】 図14は、図13の共通通信インターフェイスが使用する内部メッセージフォ
ーマットの一実施例を示す。
【図15】 図15は、共通通信インターフェイスの内部高速クロスバーの一実施例を示す
ブロック図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ディーン,スティーブ アメリカ合衆国 カリフォルニア州 94043−1389 マウンテン・ビュー ノー ス・ショアライン・ブールバード 2011 メイル・ストップ 710 (72)発明者 マッカン,ティモシー,エス アメリカ合衆国 ウイスコンシン州 54720 アルツーナ ハンプトン・コート 419 (72)発明者 ブレナン,ジョン アメリカ合衆国 カリフォルニア州 94022 ロス・アルトス ベルデン・ドラ イブ 680 (72)発明者 パリイ,デービッド,エム アメリカ合衆国 カリフォルニア州 95129 サン・ホセ カタリーナ・ドライ ブ 4635 (72)発明者 マシェイ,ジョン アメリカ合衆国 カリフォルニア州 94043−1389 マウンテン・ビュー ノー ス・ショアライン・ブールバード 2011 メイル・ストップ 710 Fターム(参考) 5B014 EB03 FB04 GA03 GA04 GD05 GD22 GD23 GD32 GE04 GE05 HC13 5B045 BB15 BB28 DD01 DD12 KK07

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】 1またはそれ以上のローカルプロセッサ及びローカルメモリ
    を有し、各々がパケット化ネットワークプロトコルに従うメッセージによりシス
    テム内の他のノードと通信するための共通通信インターフェイスを有する1組の
    機能的に独立の処理ノードと、 それぞれの共通通信インターフェイスを介して通信可能なように処理ノードを
    結合する1またはそれ以上のルーティングモジュールとより成るモジュール型計
    算システム。
  2. 【請求項2】 ノードは、大域的共有メモリアドレス空間で動作する請求項
    1のシステム。
  3. 【請求項3】 各ノード内の共通通信インターフェイスはローカルメモリを
    ローカルプロセッサと接続し、ルーティングモジュールとインターフェイスする
    少なくとも1つのポートと、入出力(I/O)サブシステムと通信するための少
    なくとも1つのポートとを提供する請求項1のシステム。
  4. 【請求項4】 各ノードの共通通信インターフェイスは、直接に相互結合し
    て、ルーティングモジュールを不要にする請求項1のシステム。
  5. 【請求項5】 計算システムは、各ノード内のレベル1コントローラと、ラ
    ックに亘る制御を行うレベル2コントローラと、システムに亘る制御を行うレベ
    ル3コントローラとより成るシステム制御階層を有する請求項1のシステム。
  6. 【請求項6】 各ノード内のレベル1コントローラは、そのノード内の直接
    低レベル通信を制御する請求項5のシステム。
  7. 【請求項7】 各ルーティングモジュールは、レベル2コントローラより成
    る請求項5のシステム。
  8. 【請求項8】 レベル3コントローラは、独立のワークステーションである
    請求項5のシステム。
  9. 【請求項9】 ノードは、高速USBを介してルーティングモジュールに通
    信可能に結合される請求項1のシステム。
  10. 【請求項10】 各共通通信インターフェイスは、 1またはそれ以上の処理ノードとインターフェイスするプロセッサインターフ
    ェイスと、 大域メモリの一部としてのローカルメモリとインターフェイスし、計算システ
    ムに亘るキャッシュコヒンレンシーを維持するためのメモリンターフェイスと、 入出力サブシステムと通信するための入出力インターフェイスとを有する請求
    項1のシステム。
  11. 【請求項11】 共通通信インターフェイスは、複数のインターフェイス制
    御ユニットを含む請求項1のシステム。
  12. 【請求項12】 共通通信インターフェイスは、外部のインターフェイス間
    で高いデータ速度でデータを交換するために各インターフェイス制御ユニットを
    通信可能に結合する中央クロスバーを有する請求項11のシステム。
  13. 【請求項13】 共通通信インターフェイス内の各インターフェイス制御ユ
    ニットは、クロスバーを介してメッセージを送信して通信する請求項12のシス
    テム。
  14. 【請求項14】 メッセージプロトコルは、要求及び応答より成る同期メッ
    セージプロトコルである請求項1のシステム。
  15. 【請求項15】 クロスバーは、メッセージを内部メッセージフォーマット
    に変換する請求項12のシステム。
  16. 【請求項16】 クロスバーは、各ユニットを接続する物理的チャンネルで
    メッセージを多重化することにより、メッセージを2つの内部バーチャルチャン
    ネルにわたり伝送する請求項12のシステム。
  17. 【請求項17】 モジューラー形通信システムの処理ノードであって、 1またはその以上のローカルプロセッサと、 ローカルメモリと、 ローカルプロセッサ及びローカルメモリに結合された共通通信インターフェイ
    スとより成り、共通通信インターフェイスは、 1またはそれ以上の外部処理ノードと通信するためのプロセッサインターフェ
    イスと、 ローカルプロセッサ及び外部プロセッサノードがローカルメモリと通信するた
    めのメモリンターフェイスと、 外部ルーティングモジュールと通信するためのルーティングインターフェイス
    と、 入出力外部サブシステムと通信するための入出力インターフェイスとを含む処
    理ノード。
  18. 【請求項18】 ノードは、大域的共有メモリアドレス空間で動作する請求
    項17の処理ノード。
  19. 【請求項19】 ノードの共通通信インターフェイスは、入出力インターフ
    ェイスを介して別のかかるノードの共通通信インターフェイスに直接結合される
    請求項17の処理ノード。
  20. 【請求項20】 ノード内で低レベルの通信を制御するシステムコントロー
    ラをさらに具備する請求項5の処理ノード。
  21. 【請求項21】 ルーティングインターフェイスは、高速USBを有する請
    求項17の処理ノード。
  22. 【請求項22】 共通通信インターフェイスは、複数のインターフェイス制
    御ユニットを有する請求項17の処理ノード。
  23. 【請求項23】 共通通信インターフェイスは、高いデータ速度により外部
    インターフェイス間でデータを交換するために各インターフェイス制御ユニット
    を通信可能に結合する中央クロスバーを有する請求項22の処理ノード。
  24. 【請求項24】 共通通信インターフェイス内の各インターフェイス制御ユ
    ニットは、クロスバーを介してメッセージを送信して通信する請求項22の処理
    ノード。
  25. 【請求項25】 メッセージプロトコルは、要求及び応答より成る同期メッ
    セージプロトコルである請求項17の処理ノード。
  26. 【請求項26】 クロスバーは、メッセージを内部メッセージフォーマット
    に変換する請求項22の処理ノード。
  27. 【請求項27】 クロスバーは、各ユニットを接続する物理的チャンネルで
    メッセージを多重化することによりメッセージを2つの内部バーチャルチャンネ
    ルにわたり伝送する請求項22のシステム。
  28. 【請求項28】 1つの機能的に独立の処理ノードが大域的共有アドレス空
    間で動作し、各ノードは1またはそれ以上のローカルプロセッサ及びローカルメ
    モリを有し、各処理ノードはメッセージプロトコルによりシステム内の他のモジ
    ュールと通信するための共通通信インターフェイスを有し、さらに、共通通信イ
    ンターフェイスはノードを1またはそれ以上の外部処理ノード、外部ルーティン
    グモジュールまたは入出力モジュールと作動的に結合するために各ノード内に単
    一の高速通信センターを提供するモジューラー型計算システム。
  29. 【請求項29】 計算システムは、任意の組合せの処理ノード及び他のモジ
    ュールを有し、そのため処理ノードと他のモジュールの数との間に固定した関係
    が不要である請求項28のシステム。
  30. 【請求項30】 1組の機能的に独立の処理ノードが複数の計算トポロジー
    の1つを形成するために作動的に結合可能であり、計算トポロジーが多数の処理
    ノードをサポートし、さらに、各計算トポロジーはより少ない処理ノードをサポ
    ートする計算トポロジーのスーパーセットであるモジューラー型計算システム。
  31. 【請求項31】 各処理ノードは、そのシステム内の他の処理ノードと通信
    するための共通通信インターフェイスを有する請求項28の計算システム。
  32. 【請求項32】 モジューラー型計算システムのための処理ノードであって
    、 1またはそれ以上のローカルプロセッサと、 ローカルメモリと、 ローカルプロセッサ及びローカルメモリに結合された共通通信インターフェイ
    ス手段とより成り、共通通信インターフェイス手段は、 1またはそれ以上の外部処理ノードと通信するための手段と、 ローカルプロセッサ及び外部プロセッサノードによりローカルメモリと通信す
    るための手段と、 外部ルーティングモジュールと通信するための手段と、 入出力外部サブシステムと通信するための手段とを含む処理ノード。
  33. 【請求項33】 1組の機能的に独立の処理手段と有し、この処理手段は複
    数の計算トポロジーの1つを形成するように作動的に結合可能であり、各計算ト
    ポロジーは多数の処理手段をサポートし、さらに、計算トポロジーはより少ない
    処理手段をサポートする計算トポロジーのサブセットであるモジューラー型計算
    システム。
  34. 【請求項34】 各処理手段は、システム内の他の処理手段と通信するため
    の共通通信インターフェイスを有する請求項33の計算システム。
JP2001526717A 1999-09-29 2000-09-29 共通の通信インターフェイスを有するモジュール型計算アーキテクチャ Pending JP2003510719A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/408,874 US6829666B1 (en) 1999-09-29 1999-09-29 Modular computing architecture having common communication interface
US09/408,874 1999-09-29
PCT/US2000/026824 WO2001024017A2 (en) 1999-09-29 2000-09-29 Modular computing architecture having common communication interface

Publications (1)

Publication Number Publication Date
JP2003510719A true JP2003510719A (ja) 2003-03-18

Family

ID=23618133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001526717A Pending JP2003510719A (ja) 1999-09-29 2000-09-29 共通の通信インターフェイスを有するモジュール型計算アーキテクチャ

Country Status (4)

Country Link
US (1) US6829666B1 (ja)
EP (1) EP1222550A2 (ja)
JP (1) JP2003510719A (ja)
WO (1) WO2001024017A2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829697B1 (en) * 2000-09-06 2004-12-07 International Business Machines Corporation Multiple logical interfaces to a shared coprocessor resource
US6996116B2 (en) * 2000-11-22 2006-02-07 International Business Machines Corporation Switching nodes and interface modules for data networks
CA2365729A1 (en) * 2001-12-20 2003-06-20 Platform Computing (Barbados) Inc. Topology aware scheduling for a multiprocessor system
US8484307B2 (en) * 2008-02-01 2013-07-09 International Business Machines Corporation Host fabric interface (HFI) to perform global shared memory (GSM) operations
US8146094B2 (en) * 2008-02-01 2012-03-27 International Business Machines Corporation Guaranteeing delivery of multi-packet GSM messages
US8200910B2 (en) * 2008-02-01 2012-06-12 International Business Machines Corporation Generating and issuing global shared memory operations via a send FIFO
US8214604B2 (en) * 2008-02-01 2012-07-03 International Business Machines Corporation Mechanisms to order global shared memory operations
US8275947B2 (en) * 2008-02-01 2012-09-25 International Business Machines Corporation Mechanism to prevent illegal access to task address space by unauthorized tasks
US8255913B2 (en) * 2008-02-01 2012-08-28 International Business Machines Corporation Notification to task of completion of GSM operations by initiator node
US8239879B2 (en) * 2008-02-01 2012-08-07 International Business Machines Corporation Notification by task of completion of GSM operations at target node
US20100008038A1 (en) * 2008-05-15 2010-01-14 Giovanni Coglitore Apparatus and Method for Reliable and Efficient Computing Based on Separating Computing Modules From Components With Moving Parts
SG192299A1 (en) * 2012-01-12 2013-08-30 Rockwell Automation Asia Pacific Business Ctr Pte Ltd System and method for coupling an automation controller and scaleable module
US9824058B2 (en) * 2014-11-14 2017-11-21 Cavium, Inc. Bypass FIFO for multiple virtual channels
WO2019190827A1 (en) * 2018-03-30 2019-10-03 Provino Technologies, Inc. Arbitrating portions of transactions over virtual channels associated with an interconnect
JP7383631B2 (ja) 2018-03-30 2023-11-20 グーグル エルエルシー システムオンチップ(SoC)エージェントのリセットおよび電力管理のためのプロトコルレベル制御

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5339396A (en) * 1987-11-18 1994-08-16 Hitachi, Ltd. Interconnection network and crossbar switch for the same
US5765011A (en) 1990-11-13 1998-06-09 International Business Machines Corporation Parallel processing system having a synchronous SIMD processing with processing elements emulating SIMD operation using individual instruction streams
US5509125A (en) 1993-09-29 1996-04-16 Silicon Graphics, Inc. System and method for fair arbitration on a multi-domain multiprocessor bus
US5504874A (en) 1993-09-29 1996-04-02 Silicon Graphics, Inc. System and method of implementing read resources to maintain cache coherency in a multiprocessor environment permitting split transactions
US5682479A (en) * 1995-05-05 1997-10-28 Silicon Graphics, Inc. System and method for network exploration and access
US5721819A (en) * 1995-05-05 1998-02-24 Silicon Graphics Corporation Programmable, distributed network routing
US6055599A (en) * 1995-09-11 2000-04-25 Electronics & Telecommunications Research Institute Hierarchical crossbar interconnection network for a cluster-based parallel processing computer
US6230252B1 (en) 1997-11-17 2001-05-08 Silicon Graphics, Inc. Hybrid hypercube/torus architecture

Also Published As

Publication number Publication date
US6829666B1 (en) 2004-12-07
WO2001024017A3 (en) 2001-08-16
WO2001024017A2 (en) 2001-04-05
EP1222550A2 (en) 2002-07-17

Similar Documents

Publication Publication Date Title
US7907624B2 (en) Switch matrix
JP2558393B2 (ja) 多重クラスタ信号プロセッサ
JP2003510719A (ja) 共通の通信インターフェイスを有するモジュール型計算アーキテクチャ
US8463977B2 (en) Use of PCI express for CPU-to-CPU communication
US7165131B2 (en) Separating transactions into different virtual channels
US7533210B2 (en) Virtual communication interfaces for a micro-controller
CN100445981C (zh) 使用串行连接总线的计算机系统及多cpu互连方法
US20090094436A1 (en) Ultra-scalable supercomputer based on mpu architecture
US20040083324A1 (en) Large array of mass data storage devices connected to a computer by a serial link
JP2004005429A (ja) Usbシステム、多数のideデバイスをプロセッサに接続するための方法、およびデータ記憶システム
JPH0713945A (ja) 演算処理部および制御・記憶部分離型マルチプロセッサ ・システムのバス構造
US5533201A (en) Method and apparatus for simultaneous interconnection of multiple requestors to multiple memories
Fillo et al. MEMORY CHANNEL 2
JPH10222458A (ja) 接続装置
Horst et al. ServerNet SAN I/O Architecture
JP2502466B2 (ja) 交換機ア―キテクチャに変換するためのスレ―ブ・マイクロチャネル装置
US7404020B2 (en) Integrated fibre channel fabric controller
CN109033002A (zh) 一种多路服务器系统
US20050038949A1 (en) Apparatus for enabling distributed processing across a plurality of circuit cards
US20070226456A1 (en) System and method for employing multiple processors in a computer system
EP1415234B1 (en) High density severlets utilizing high speed data bus
Kwon et al. Microserver architecture with high-speed interconnected network
CN1269550A (zh) 分区计算机系统中的动态i/o分配
JP2001290562A (ja) 内部コンピュータネットワーク用コンピュータシステム
Al-Awa et al. A real time vision architecture using a dynamically reconfigurable fast bus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090219