JP2003510719A

JP2003510719A - 共通の通信インターフェイスを有するモジュール型計算アーキテクチャ

Info

Publication number: JP2003510719A
Application number: JP2001526717A
Authority: JP
Inventors: デネロフ，マーチン，エム; ディーン，スティーブ; マッカン，ティモシー，エス; ブレナン，ジョン; パリイ，デービッド，エム; マシェイ，ジョン
Original assignee: Silicon Graphics Inc
Current assignee: Graphics Properties Holdings Inc
Priority date: 1999-09-29
Filing date: 2000-09-29
Publication date: 2003-03-18
Also published as: US6829666B1; WO2001024017A3; WO2001024017A2; EP1222550A2

Abstract

(57)【要約】大域的共有アドレス空間で動作する１組の機能的に独立の処理ノードとなるように編成された分散型共有メモリコンピュータアーキテクチャ。各ノードは、１個またはそれ以上のローカルプロセッサ、ローカルメモリ、及びメッセージプロトコルによりシステム内の他のモジュールと通信するための共通通信インターフェイスを有する。共通通信インターフェイスは、ノードを１またはそれ以上の外部処理ノード、外部ルーティングモジュール、入出力モジュールに作動的に結合するための単一の高速通信センターを各ノード内に提供する。共通通信インターフェイスは、システムの計算資源を全体的に破壊せずにシステムのノードを増分しスワップする能力を与える。

Description

【発明の詳細な説明】

【０００１】本発明は、一般的に、高速計算システムの分野に関し、さらに詳細には、多種
多様なモジューラー型計算トポロジーを可能にする、柔軟性と増分拡張性を備え
た共通通信インターフェイスを有するコンピュータアーキテクチャに関する。

【０００２】

【発明の背景】

スーパーコンピュータとして知られる現代の高性能コンピュータには、プロセ
ッサ及び入出力ポートのような計算資源を増加させる強いニーズがある。従って
、業界では、多くの計算資源をサポートする、多種多様な計算トポロジーを有す
る高速計算システムの開発が間断なく行われている。しかしながら、既存の計算
システムを、現在の構成をばらばらにせずに、計算資源が増加した大きいトポロ
ジーに増分的に拡張するのは、多くの場合困難である。加えて、単一の製造ライ
ンからローエンドのスーパーコンピュータと、中位のスーパーコンピュータの両
方を含む多種多様なスーパーコンピュータを製造するのも、多くの場合困難であ
る。従って、当該技術分野では、高速計算システムをモジューラー方式で構成し
増分的に拡張するのが容易なコンピュータアーキテクチャが求められている。

【０００３】

【発明の概要】

本発明は、各々が少なくとも１つのプロセッサを有する多数のノードを有する
ように編成された分散型共有メモリコンピュータアーキテクチャに関する。本発
明によると、各ノードは、システムの全体的計算資源を破壊することなくシステ
ムのノードを増分的に拡張しスワップする能力を与える共通通信インターフェイ
スを有する。さらに詳細には、各ノード内の共通通信インターフェイスは、ロー
カルメモリをローカルプロセッサに接続し、システム規模のルーティングネット
ワークと通信するためのポートと、入出力サブシステムと通信するためのポート
とを提供する。このようにすると、各計算トポロジーは、このアーキテクチャに
よりサポートされる小さなトポロジーのスーパーセットとなる。このようにして
、このアーキテクチャに基づく計算システムは、既存のコンポーネントを再構成
することなく容易且つ増分的に拡張することが可能である。

【０００４】

【好ましい実施例の詳細な説明】

本発明は、以下の説明を読めばわかるように、発明の背景で述べた問題点及び
欠点を解消するものである。本発明は、各々が少なくとも１つのプロセッサを有
する多数のノードを有するように編成された分散型共有メモリコンピュータアー
キテクチャに関する。本発明によると、各ノードは、システムの全体的計算資源
を破壊することなくシステムのノードを増分的に拡張しスワップする能力を与え
る共通通信インターフェイスを有する。さらに詳細には、各ノード内の各通信イ
ンターフェイスは、ローカルメモリをローカルプロセッサに接続し、システム規
模のルーティングネットワークと通信するためのポートと、入出力サブシステム
と通信するためのポートとを提供する。

【０００５】以下に詳述するように、ノードを通信可能なように、多種多様なトポロジーに
結合するために、アーキテクチャ内で独立のルーティングモジュールを使用する
。その結果、高い柔軟性と拡縮性とを有する高速コンピュータを容易に構成する
ことができる。コンピュータアーキテクチャは、単一のアドレス空間を共有し、
高速コンピュータの全ノードにわたるキャッシュコヒーレンシーを必要とする、
最大４０９６個の多数のプロセッサを備えた計算システムの構成に特に有用であ
る。

【０００６】このように、これらの処理ノード及びルーティングモジュールは、高速計算シ
ステムを構成するための基本的構成ブロックであるため集合的に「ブリック」と
呼ぶが、これらは、多様なトポロジーを形成するように相互接続するのが容易で
ある。計算システムは、多数の処理ノードと、他のモジュールとの間の固定した
関係が不要であるような、処理ノードと、他のモジュールの任意的な組合せであ
る。さらに、以下において詳述するように、このアーキテクチャによりサポート
される各トポロジーは、このそのアーキテクチャによりサポートされる小さなト
ポロジーのスーパーセットである。表１は、コンピュータアーキテクチャ内で使
用する種々のモジュールを示す。

【０００７】表１構成要素説明Ｃブリック−MIPS ＣＰＵノードはＭＩＰＳプロセッサＣブリック−Merced ＣＰＵブリックＭｅｒｃｅｄプロセッサＰブリックＩ／Ｏブリックは１４個のＰＣＩスロットＩブリックＩ／Ｏブリックはエントリレベルシステムの完全なＩ／Ｏニーズを満足するＸブリックＩ／Ｏブリックは４つのＸＩＯを提供Ｒブリックルーティングノードは８個のルーティングスロットを提供電源部モジュールの所与のラックに給電Ｄブリックディスクボックスと呼ぶディスケットまたはディスクドライブモジュール図１Ａ及び図１Ｂは、上述の機能的に独立のブリックを種々のトポロジーにな
るように組合せて高速計算システムを構成する種々の実施例を示す。例えば、図
１Ａは、３つのコンピュータトポロジー１０、１５及び２０を示す。トポロジー
１０は、４つのプロセッサ（Ｐ）が単一の共通通信インターフェイス（ＢＲ）に
より接続された単一のノードを示す。トポロジー２０は、８個のプロセッサより
成る２つのノードがそれぞれの共通通信インターフェイスを介して通信可能なよ
うに結合されたトポロジーである。トポロジー３０は、１６個のプロセッサより
成る４つのノードが単一のルーティングモジュールを介して通信可能なように結
合されたトポロジーである。図１Ｂは、本明細書で説明する柔軟性を備えたアー
キテクチャにより、５１２個のプロセッサを有する多数のノードが相互接続され
た拡張ハイパーキューブコンピュータトポロジーを示す。

【０００８】図１Ａ、１Ｂに示すように、各コンピュータトポロジーは、そのアーキテクチ
ャによりサポートされた小さなトポロジーのスーパーセットである。さらに詳述
すると、トポロジー１５は２つのトポロジー１０を含むスーパーセットである。
同様に、トポロジー２０は、４つのトポロジー１０または２つのトポロジー１５
を含むスーパーセットである。このように、ここで説明する本発明のアーキテク
チャに基づく計算システムは、既存のコンポーネントの構成を変更せずに、増分
的に拡張することが容易である。

【０００９】図１Ｃは、機能的に独立のブリック及び本発明のアーキテクチャを用いて構成
し、ラックに取り付けた３つの高速計算システムの斜視図である。さらに詳細に
は、高速計算システム１００は、高速コンピューティングへの低コストの入口部
分であり、電源モジュール１０２、多数のプロセッサを有する２つの処理ノード
（Ｃブリック）１０４、単一のルーティングモジュール（Ｒブリッジ）１０６及
び単一の入出力モジュール（Ｉブリック）１０８を有する。一方、高速計算シス
テム１２０は、２つの処理ノード（Ｃブリック）、単一のルーティングモジュー
ル（Ｒブリック）１２６、単一の入出力モジュール（Ｉブリック）１２８、２つ
の電源モジュール１２２及び３つの駆動部（Ｄブリック）１２９を有する中間的
システムである。高速計算システム１３０は、電源モジュール１３２、ネットワ
ーク接続モジュール１３３、４つの処理ノード（Ｃブリック）１３４及びルーテ
ィングモジュール（Ｒブリック）１３６を有するハイエンドのコンピュータであ
る。残り４つの入出力モジュールは、Ｐブリック、Ｉブリック及びＸブリックの
任意の組合せでよい。

【００１０】図１Ｄは、高性能処理システム１４０の四半部を示す。２４個のうち６個の垂
直ラックを示す。図示の実施例において、計算システム１４０は、１つのラック
につき最大８個のＣブリックで、最大１６個のラックに合計５１２個のＣＰＵを
備えることができる。加えて、システム１４０は、１つのラックにつき２または
３個のルーティングモジュールと、１つのラックにつき多数の電源部を備えるこ
とができる。計算システム１４０はさらに、１乃至８個のＰ、ＩまたはＸブリッ
クより成る多数の入出力ラック１４２を有する。

【００１１】

【処理ノード（Ｃブリック）】

図２は、本発明の処理ノード２００の１つの実施例である。Ｃブリックと呼ぶ
処理ノード２００は、４個のローカルＣＰＵ、ローカルメモリ及び独立の分散モ
ジュールとして動作するに必要な関連の電子装置を含む機能的に独立のモジュー
ルである。Ｃブリックは、以下のもの、即ち、１）システムコントローラと、ブ
リックとの間の通信のための高速シリアルチャンネル、２）内部のレベル１（Ｌ
１）システムコントローラとの通信のための高速シリアルチャンネル、及び３）
入出力ブリックのＬ１システムコントローラと通信するためのシリアルチャンネ
ルの外部高速シリアルコンソールポートを提供する。

【００１２】図示の実施例は、４個のＣＰＵ２１５と、８個のメモリスロット２２２とを有
する。メモリスロット２２２は、１０個のＳＤＲＡＭチップを２列サポートする
ＤＩＭＭモジュールを受けるように設計されている。前方装着ファン２２８は、
前からの取り外すことができ、冗長で、交換可能である。Ｃブリック２００の後
部の外部コネクタ２３０は、電源、ルーティングネットワーク、Ｉ／Ｏ及びＵＳ
Ｂのための接続部を提供する。以下に述べるように、ＵＳＢコネクタは、ルーテ
ィングモジュールのない小さなシステムのオプションとしてのレベル２（Ｌ２）
システムコントローラとの接続に使用される。

【００１３】処理ノード２００は、システムの全体的計算資源を破壊せずにシステムのノー
ドを増分的に拡張しスワップする能力を与える共通通信インターフェイス２３５
を有する。さらに詳細には、ノード２００内の共通通信インターフェイス２３５
は、スロット２２２に存在するローカルメモリをローカルプロセッサ２１５と接
続し、以下に詳述するように、コネクタ２３０に高速インテリジェントインター
フェイスを提供する。

【００１４】

【ルーティングモジュール（Ｒブリック）】

図３は、ここではＲブリックと呼ぶ、ルーティングモジュール３００を示すブ
ロック図である。Ｒブリックは、以下のもの、即ち、１）内部Ｌ１システムコン
トローラと、内部ルータＡＳＩＣとの間の通信のための高速シリアルチャンネル
、レベル２（Ｌ２）システムコントローラ及びレベル３（Ｌ３）システムコント
ローラとの通信のためのＵＳＢスレーブポート、及び３）５個のマスターポート
を有するＵＳＢハブを提供する。

【００１５】Ｒブリック３００は、単一のルータＡＳＩＣ３１０、電源回路３１２、インタ
ーフェイスコネクタ３２０、３２２、レベル２（Ｌ２）システムコントローラ３
１５、ＵＳＢハブ３２５、及びＵＳＰアップストリームコネクタ３２７を有する
。コネクタ３２０、３２２はＤネットコネクタであり、これらは本発明に従って
、種々のモジュールを容易に相互接続し、交換するのを可能にする。Ｒブリック
３００の４つのＤネットコネクタ３２０は、Ｌ２システムコントローラのＵＳＢ
信号送信をサポートする。別の４つのＤネットコネクタ３２２は、ルータ間の全
ての通信をサポートする。従って、この実施例によると、４個のＣブリックがコ
ネクタ３２０によりＲブリック３０２に結合可能であり、一方、４個の別のルー
ティングモジュールがコネクタ３２２を介してＲブリック３００に接続可能であ
る。別の実施例では、ルーティングモジュール３００はただ６個のポートを有す
る。

【００１６】

【入出力モジュール（Ｉブリック、Ｐブリック及びＸブリック）】

本発明のコンピュータアーキテクチャにより、Ｉブリック、Ｘブリック及びＰ
ブリックの３個の入出力モジュールが提供される。Ｉブリックは、基本的システ
ムの全ての入出力ニーズを満足するかまたは大型でより複雑なシステムのブート
条件を満たすためのものである。Ｐブリックは、１２個の６４ビットＰＣＩスロ
ットを提供する。Ｘブリックは、高さが半分の４個のＸＩＯスロットを提供する
入出力拡張ブリックである。

【００１７】図４は、Ｘブリックと呼ぶ、入出力モジュールの斜視図である。Ｘブリックは
、以下の機能、即ち、１）Ｃブリック内の内部Ｌ１システムコントローラとの通
信のためのシリアルチャンネル、及び２）入出力カードの接続状況を読み取って
レポートする手段を提供する。さらに詳しくは、Ｘブリック４００は、ボックス
４０２の後部から水平にプラグ接続される４個の入出力カード４０４を含む。単
一のホストインターフェイスカードも後部から水平にプラグ接続される。Ｘブリ
ック４００の中央に垂直に取り付けられる中間面のＰＣＡ４１０は、Ｉ／Ｏを制
御するための単一のＸブリックＡＳＩＣ４１２を有する。

【００１８】図５は、Ｉブリックと呼ぶ、入出力モジュール５００の斜視図である。Ｉブリ
ック及びＰブリックは、以下の機能、即ち、１）Ｃブリック内の内部Ｌ１コント
ローラとの通信のためのシリアルチャンネル、２）ＰＣＩカードの接続状況を読
み取ってレポートする手段、３）ＰＣＩスロットの給電を制御する手段、及び４
）電源部の状態を制御しモニターする手段を提供する。図示の実施例において、
Ｉブリック５００は、６個のＰＣＩ入出力ボード５１２と、ＣＤＲＯＭ／ＤＶＤ
プレイヤ５１０とを有する。電源ボード５２２は、Ｉ／Ｏを制御するための単一
のＸブリックＡＳＩＣを格納する。１対のＸＴａｌｋ入出力ポートは、入出力モ
ジュール５００の後部に位置し、Ｉブリック５００を１個または２個のＣブリッ
クと接続する。１つの実施例において、Ｉブリック５００は、２個の取り外し可
能な光ファイバチャンネルハードドライブと、単一の取り外し可能なメディアド
ライブ５１０とを有する。電源ボード５２２は、Ｉブリック５００の前部から水
平に取り付け可能であり、入力として直流４８ボルトを受け、システムボード、
ＰＣＩスロット５１２、及びディスクドライブ５１０のための必要な直流電圧を
発生する。

【００１９】図６は、Ｐブリックと呼ぶ出力モジュール６００の１実施例であり、このモジ
ュールはＩブリック５００より強力な入出力モジュールである。さらに詳細には
、Ｐブリック６００は、３個のＸブリックＡＳＩＣを格納し、１２個のＰＣＩス
ロット６０２を提供する。

【００２０】

【ラック及び電源部】

図７は、本願で説明する１またはそれ以上の独立のモジュールを受けるに好適
なコンピュータラック７００の斜視図である。例えば、ラック７００は、１個ま
たはそれ以上のＣブリック、Ｐブリック、ＩブリックまたはＸブリックを受容で
きる。このようにして、拡縮性を有するコンピュータを容易に製造できる。短い
ラックまたは２列ラックのようなラック７００の他の実施例も可能である。

【００２１】図８は、電源部と呼ぶ、電源モジュール８００を示す斜視図である。１つの実
施例において、電源部８００は、単相交流入力と、直流４８ボルトの出力毎に９
５０ワットの電力を供給する最大６個の電源を保持する。図８に示すように、電
源部８００は、モジュールの後部に８個のコネクタ８０４を有する。これらのコ
ネクタは、モニター信号と共に直流４８ボルトの電源を運ぶ。Ｐベイ８０４はさ
らに、各電源をモニターするための８個のシリアルインターフェイスを有する。
上述の分散型アーキテキチャは、１つの実施例では、４８ボルトの給電を必要と
する。

【００２２】

【システム制御及び相互接続トポロジー】

本発明の分散型アーキテクチャは、３つのレベルより成るシステム管理のため
の階層を有する。アーキテクチャの心臓部は、Ｄブリックを除き本発明のアーキ
テクチャの各ブリック内に存在するＬ１システムコントローラ（図示せず）であ
る。このコントローラは、マイクロコントローラ、システムモニターチップ、及
びスキャンインターフェイスチップと、シリアルＥＰＲＯＭ、バス拡張手段及び
それが制御する装置に特定される通信インターフェイスの集合体を有する。Ｌ１
システムコントローラは、電力制御及びシーケンシング、環境制御及びモニター
、リセットの始動及びそのホストブリックの識別及び構成情報の記憶を担当する
。Ｌ１システムコントローラはまた、ユーザにコンソール／診断及び走査インタ
ーフェイスを提供する。

【００２３】図９は、上述した機能モジュールより成る典型的な高速計算システムの配線図
である。Ｌ２システムコントローラ９０４は、ラックレベルのシステム制御を行
う。即ち、Ｃブリックを備えた各ラックには、１個のＬ２システムコントローラ
９０４が存在する。さらに、Ｌ２システムコントローラ９０４は、ラックのため
の中央通信情報センターとして働き、その特定のラック及び関連の入出力ラック
の全てのブリックを制御する。１つの実施例において、各Ｌ２システムコントロ
ーラ９０４は、タッチスクリーンディスプレイと、イサーネット及びモデムポー
トとを備え、システムの中央制御ポイントとして使用可能である。第３レベルの
制御は、Ｌ３システムコントローラ９０６であり、システム全体の中央制御ポイ
ントを提供し、この実施例では独立型ワークステーションまたはラップトップコ
ンピュータである。

【００２４】計算システム９００は、２個のルーティングモジュール９１０（Ｒブリック）
と、８個の処理ノード９１４（Ｃブリック）とを収納する第１のラック９０２を
備えている。各ルーティングモジュール９１０には４個のポートがあるため、４
個のＣブリックをルータに結合することができる。各Ｃブリック９１４は、単一
の高速ＵＳＢケーブルによりルーティングモジュール９１０の１つと接続されて
いる。同様に、各ルーティングモジュール９１４は、ＵＳｂケーブルを介してＬ
２システムコントローラ９０４と接続されている。計算システム９００はさらに
、メタルータ９１２を有する。第１のＣＰＵラック９０２もまた、ローカルネッ
トワーク９２０を介して別のＣＰＵラックと接続する単一のイサーネットハブ９
１４を有する。加えて、Ｌ３システムコントローラは、ネットワーク９２５を介
して他のコンピュータと接続可能である。

【００２５】各ブリック内のＬ１システムコントローラは、ブリック内の全ての機能に対す
る直接の低レベル通信と制御を行う。ほとんどのシステムにおいて、それは、上
流のＬ２システムコントローラ９０４に対してスレーブとして働く。しかしなが
ら、処理モジュールのＣブリックが小数に限定された１つの実施例では、Ｌ２シ
ステムコントローラが存在しない場合、１つのＬ１システムコントローラが、全
体のシステムのマスターコントローラとして働くことができる。

【００２６】上述したモジュール及びそれらの相互接続手段は、幾つかの異なる通信パスを
有する多種多様なトポロジーを可能にする。例えば、Ｌ３システムコントローラ
は、ＣブリックのＬ１システムコントローラと直接通信可能である。Ｃブリック
は上流に標準のＵＳＢポートを有するため、Ｌ３はＬ２がなくともシステムと直
接インターフェイスできる。Ｌ２が存在する場合、Ｃブリックの上流のＵＳＢポ
ートは、ＣブリックのＬ１がＲブリックのＬ１との通信のためにそのＵＳＢチャ
ンネルを使用中であるため、アクセス不能にされる。また、Ｌ３システムコント
ローラはＬ２システムコントローラと直接通信することが可能である。上述した
ように、これは、ネットワークハブを介するネットワーク接続により通常行われ
る。あるいは、Ｌ３システムコントローラを、クロスオーバーツイストペアケー
ブルによりＬ２と直接接続することが可能である。ルーティングモジュールが計
算システムに含まれている場合、Ｌ２システムコントローラが必要である。

【００２７】Ｌ２システムコントローラは、特定のラックのＵＳＤホストとして働く。上述
したように、ルーティングモジュールのＬ１コントローラはＵＳＢハブを含み、
このハブはＵＳＢを駆動して、Ｃブリックに接続された４個のポート上で、ロー
カルＬ１へ、またＬ１から信号伝送を行うことができる。従って、Ｒブリックは
Ｃブリックに直接結合可能である。ＲブリックはＵＳＢハブを備えているが、こ
のハブの下流ポートはシールドペア線によりＣブリックのＬ１システムコントロ
ーラに接続される。システムによっては、Ｃブリックを別のＣブリックと直接通
信させることができる。例えば、ルーティングモジュールが存在せず、Ｌ２及び
Ｌ３システムコントローラも存在しない場合、ＵＳＢは通信機構として使用でき
ない。従って、最大で２個のＣブリックを有するシステムでは、ブリックのＬ１
システムコントローラは、ケーブルによりＲＳ４２２を介して相互に通信する。
加えて、ＣブリックのＬ１システムコントローラは入出力ブリックのＬ１システ
ムコントローラに直接結合することが可能である。Ｃブリック及び入出力ブリッ
クはルータのないシステムでは通信する必要があるため、それらは同様にケーブ
ルによりＲＳ４２２を介して通信するように構成される。

【００２８】図１０、１１及び１２は、上述した相互接続による可能なトポロジーを示す。
相互接続トポロジー１００５は、ルーティングモジュールがなく、従ってＣブリ
ックがＩブリックに直接接続された計算システムを示す。図示のように、これら
の相互接続トポロジーは、標準ケーブルによるシリアル接続４２０を用いる。ト
ポロジー１０１０は、Ｌ３システムコントローラはあるが、Ｌ２システムコント
ローラがない計算システムを示す。ここでは、Ｌ３システムコントローラはＣブ
リックに直接接続するためのＵＳＢを用いる。

【００２９】図１１において、相互接続トポロジー１１１５は、３個以上のＣブリックを備
えているため、ルーティングモジュールを必要とし、この場合、Ｌ２システムホ
ストが必要とされる計算モジュールを示す。Ｌ２システムコントローラはＵＳＢ
ホストであり、ルーティングモジュールはＵＳＢハブである。図１２において、
相互接続トポロジー１２０８は、多数のＬ２システムコントローラが１０ベース
Ｔハブを介して接続された計算システムを示す。ここでは、Ｌ３システムコント
ローラは、オプションとして１０ベースＴハブに接続されている。

【００３０】

【共通通信インターフェイス】

図１３は、上述した種々の独立モジュールを相互接続するための本発明による
高速共通通信インターフェイス１３００の１つの実施例である。本発明によると
、共通通信インターフェイス１３００は、種々のモジュールを公正且つ効率的な
態様により接続する。計算システム内の各ノードは共通通信インターフェイス１
３００を備えているが、このインターフェイスは、以下に詳述するように、高速
計算システムの分散型モジュール全体の中で「バーチャル」なシステムバスを拡
張する。このようにすると、処理ノード及び他のモジュールを計算システムに付
加したり、取り外したりすることが容易にできる。

【００３１】共通通信インターフェイス１３００は、４個の別個のインターフェイスを有す
る。プロセッサインターフェイス１３０５は、１個またはそれ以上の処理モジュ
ールとインターフェイスする。メモリンターフェイス１３１０は大域メモリの一
部とインターフェイスし、計算システムにわたってキャッシュコヒーレンシーを
維持するためのものである。入出力インターフェイス１３１５は、入出力サブシ
ステムと通信するものである。共通通信インターフェイス１３００はさらに、ル
ータモジュールとインターフェイスするためのルータインターフェイス１３２０
を有する。

【００３２】この共通通信インターフェイス１３００は、内部に、そのインターフェイスを
管理するための５個のインターフェイス制御ユニットを有する。さらに詳細には
、共通通信インターフェイス１３００は、プロセッサインターフェイスユニット
１３２５、メモリインターフェイスユニット１３３０、入出力インターフェイス
ユニット１３３５、ネットワークインターフェイスユニット１３４０及びローカ
ルチップ資源とインターフェイスするためのローカルブロック１３４５を有する
。このようにして、共通通信インターフェイス１３００は、４つのタイプのイン
ターフェイスと、ローカルチップ資源へのインターフェイスとの間の標準的な接
続を行う。

【００３３】ノード１３００のインターフェイス制御ユニットは、インターフェイス間で高
いデータ速度でデータを交換するための中央クロスバー１３５０により接続され
ている。このようにして共通通信インターフェイス１３００は、単一のアドレス
空間を共有する分散型モジューラー計算システムを可能にする。１つの実施例に
おいて、共通通信インターフェイス１３００は、最大で２５６個の処理ノードを
サポートし、これらの処理ノードは、１つの実施例では、それぞれ最大４個のプ
ロセッサより成る。共通通信インターフェイス１３００内の各インターフェイス
制御ユニットは、クロスバー１３５０を介してメッセージを送り且つクロスバー
からメッセージを受信することにより通信する。モジュールが使用するメッセー
ジは、パケット化ネットワークプロトコルに従うものである。１つの実施例にお
いて、２つのタイプのメッセージ、即ち、要求及び応答がサポートされる。この
構成により、計算システムはシステムのデッドロック状況を回避し、キャッシュ
コヒーレンシーを促進する。メッセージが入出力インターフェイス１３３５また
はネットワークインターフェイス１３３０を介して到達すると、そのメッセージ
は内部フォーマットに変換される。メッセージがこれらインターフェイスのうち
の１つを介して送信される場合は、逆である。

【００３４】共通通信インターフェイス１３００の内部メッセージフォーマットは、１群の
ビットであるヘッダーフレームより成り、このフレームは概念的及び論理的に単
一ユニットである。このヘッダーフレームの次には、オプションとして、１また
はそれ以上のデータフレームが続き、これらのフレームはメッセージの合計６４
乃至１０２４個のビットのデータを運ぶ。各フレームが共通通信インターフェイ
ス１３００により受信されるか、あるいはそれから送信されると、そのフレーム
内に埋め込まれた制御信号は、以下の情報の全部または一部を示す。即ち、１）
フレームの行先がいずれのインターフェイス制御ユニットであるか、２）そのフ
レームが要求であるかまたは応答であるか、そして、３）そのフレームにより現
メッセージが終了するか否かを示す情報である。

【００３５】図１４は、共通通信インターフェイス１３００の内部メッセージフォーマット
の１つの実施例である。さらに詳述すると、この図１４は、制御ビット、ヘッダ
及びデータフォーマットを示す。ヘッダ内では、ソースは最上位の１１ビットに
より示す。１つの実施例において、ソースはデバイス及びノードを同定する。

【００３６】共通通信インターフェイス１３００のクロスバー１３５０は、共通通信インタ
ーフェイス１３００の各ユニットをクロスバー１３５０と接続する物理的チャン
ネルで多重化される２つのバーチャルチャンネルに沿う、上述した内部フォーマ
ットでのメッセージの流れをサポートする。クロスバー１３５０は、軽負荷の下
で待ち行列バッファバイパス経路により最小の待ち時間が得られるように、また
、重負荷の下でバーチャルチャンネルを介する調停要求により最大のスループッ
トが得られるように設計される。上述した計算モジュールを種々のトポロジーで
相互接続するために複数のノード１３５を接続するのは、この態様による。

【００３７】図１５は、共通通信インターフェイス１３００のクロスバー１３５０の１つの
実施例を示すブロック図である。この図において、デュアルＦＩＦＯとは、単一
のバッファメモリ構造内の２個のバーチャルチャンネルＦＩＦＯのことである。
カッドＦＩＦＯとは、類似の構造内の４個のバーチャルチャンネルＦＩＦＯのこ
とである。データパスクロスバー１５０５は、６出力クロスバーによる８入力を
含む。クロスバーデータパスは全ての入力及び出力に対して６７ビット幅であり
、５ナノ秒のクロックで１ポート当たり１．６ＧＢ／秒のデータ帯域幅を与える
。出力待ち行列は、出力されるユニットメッセージのバッファリングを行い、デ
ータパス資源を調停する。入力待ち行列は、クロスバー１３５０を通過したがそ
の行先ユニットによりまだ処理されていないデータのバッファリングを行う。従
って、それらの主要な役割は、クロスバー１３５０と、受信ユニットとの間の速
度の整合と、同期を行うことである。調停手段１５１０は、バイパス調停による
無競争ポートの短い待ち時間での調停と、資源が飽和状態になると波面調停によ
る高効率の利用を可能にする。

【図面の簡単な説明】

【図１Ａ】図１Ａは、高速計算システムを形成するために本発明のアーキテクチャの機能
的に独立のモジュールを如何に組合せて種々のトポロジーにするかを示す種々の
実施例の論理ブロック図である。

【図１Ｂ】図１Ｂは、高速計算システムを形成するために本発明のアーキテクチャの機能
的に独立のモジュールを如何に組合せて種々のトポロジーにするかを示す種々の
実施例の論理的ブロック図である。

【図１Ｃ】図１Ｃは、本願に示す柔軟性と拡縮性を備えたモジュール形システムにより構
成した３つの高速計算システムを示す。

【図１Ｄ】図１Ｄは、本願に示すモジュールに好適な６個の垂直ラックを有する高性能処
理システム１４０を示す。

【図２Ａ】図２Ａは、Ｃブリックの１つの実施例であり、このモジュールは４個のＣＰＵ
と、８個のメモリスロットとを有する。

【図３】図３は、Ｒブリックと呼ぶルータモジュール３００の斜視図である。

【図４】図４は、Ｘブリックと呼ぶ入出力モジュールの斜視図である。

【図５】図５は、Ｉブリックと呼ぶ入出力モジュール５００の斜視図である。

【図６】図６は、Ｉブリック５００より強力な入出力モジュールである、Ｐブリックと
呼ぶ出力モジュール６００の１つの実施例を示す。

【図７】図７は、本願に示す１個またはそれ以上の独立のモジュールを受けるに好適な
コンピュータラック７００を示す。

【図８】図８は、Ｐベイと呼ぶ電源モジュール８００の斜視図である。

【図９】図９は、柔軟性及び拡縮性を備えた独立の機能モジュールより成る典型的な高
速計算システムの配線図である。

【図１０】図１０は、上述の相互接続ルールに基づき可能なトポロジーを示す。

【図１１】図１１は、上述の相互接続ルールに基づき可能なトポロジーを示す。

【図１２】図１２は、上述の相互接続ルールに基づき可能なトポロジーを示す。

【図１３】図１３は、アーキテクチャの各ノード内の共通通信インターフェイスの一実施
例であり、それらの柔軟で拡張的な相互接続を可能にする。

【図１４】図１４は、図１３の共通通信インターフェイスが使用する内部メッセージフォ
ーマットの一実施例を示す。

【図１５】図１５は、共通通信インターフェイスの内部高速クロスバーの一実施例を示す
ブロック図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ディーン，スティーブアメリカ合衆国カリフォルニア州 94043−1389 マウンテン・ビューノース・ショアライン・ブールバード 2011 メイル・ストップ 710 (72)発明者マッカン，ティモシー，エスアメリカ合衆国ウイスコンシン州 54720 アルツーナハンプトン・コート 419 (72)発明者ブレナン，ジョンアメリカ合衆国カリフォルニア州 94022 ロス・アルトスベルデン・ドライブ 680 (72)発明者パリイ，デービッド，エムアメリカ合衆国カリフォルニア州 95129 サン・ホセカタリーナ・ドライブ 4635 (72)発明者マシェイ，ジョンアメリカ合衆国カリフォルニア州 94043−1389 マウンテン・ビューノース・ショアライン・ブールバード 2011 メイル・ストップ 710 Ｆターム(参考） 5B014 EB03 FB04 GA03 GA04 GD05 GD22 GD23 GD32 GE04 GE05 HC13 5B045 BB15 BB28 DD01 DD12 KK07

Claims

【特許請求の範囲】

【請求項１】１またはそれ以上のローカルプロセッサ及びローカルメモリ
を有し、各々がパケット化ネットワークプロトコルに従うメッセージによりシス
テム内の他のノードと通信するための共通通信インターフェイスを有する１組の
機能的に独立の処理ノードと、それぞれの共通通信インターフェイスを介して通信可能なように処理ノードを
結合する１またはそれ以上のルーティングモジュールとより成るモジュール型計
算システム。
【請求項２】ノードは、大域的共有メモリアドレス空間で動作する請求項
１のシステム。
【請求項３】各ノード内の共通通信インターフェイスはローカルメモリを
ローカルプロセッサと接続し、ルーティングモジュールとインターフェイスする
少なくとも１つのポートと、入出力（Ｉ／Ｏ）サブシステムと通信するための少
なくとも１つのポートとを提供する請求項１のシステム。
【請求項４】各ノードの共通通信インターフェイスは、直接に相互結合し
て、ルーティングモジュールを不要にする請求項１のシステム。
【請求項５】計算システムは、各ノード内のレベル１コントローラと、ラ
ックに亘る制御を行うレベル２コントローラと、システムに亘る制御を行うレベ
ル３コントローラとより成るシステム制御階層を有する請求項１のシステム。
【請求項６】各ノード内のレベル１コントローラは、そのノード内の直接
低レベル通信を制御する請求項５のシステム。
【請求項７】各ルーティングモジュールは、レベル２コントローラより成
る請求項５のシステム。
【請求項８】レベル３コントローラは、独立のワークステーションである
請求項５のシステム。
【請求項９】ノードは、高速ＵＳＢを介してルーティングモジュールに通
信可能に結合される請求項１のシステム。
【請求項１０】各共通通信インターフェイスは、１またはそれ以上の処理ノードとインターフェイスするプロセッサインターフ
ェイスと、大域メモリの一部としてのローカルメモリとインターフェイスし、計算システ
ムに亘るキャッシュコヒンレンシーを維持するためのメモリンターフェイスと、入出力サブシステムと通信するための入出力インターフェイスとを有する請求
項１のシステム。
【請求項１１】共通通信インターフェイスは、複数のインターフェイス制
御ユニットを含む請求項１のシステム。
【請求項１２】共通通信インターフェイスは、外部のインターフェイス間
で高いデータ速度でデータを交換するために各インターフェイス制御ユニットを
通信可能に結合する中央クロスバーを有する請求項１１のシステム。
【請求項１３】共通通信インターフェイス内の各インターフェイス制御ユ
ニットは、クロスバーを介してメッセージを送信して通信する請求項１２のシス
テム。
【請求項１４】メッセージプロトコルは、要求及び応答より成る同期メッ
セージプロトコルである請求項１のシステム。
【請求項１５】クロスバーは、メッセージを内部メッセージフォーマット
に変換する請求項１２のシステム。
【請求項１６】クロスバーは、各ユニットを接続する物理的チャンネルで
メッセージを多重化することにより、メッセージを２つの内部バーチャルチャン
ネルにわたり伝送する請求項１２のシステム。
【請求項１７】モジューラー形通信システムの処理ノードであって、１またはその以上のローカルプロセッサと、ローカルメモリと、ローカルプロセッサ及びローカルメモリに結合された共通通信インターフェイ
スとより成り、共通通信インターフェイスは、１またはそれ以上の外部処理ノードと通信するためのプロセッサインターフェ
イスと、ローカルプロセッサ及び外部プロセッサノードがローカルメモリと通信するた
めのメモリンターフェイスと、外部ルーティングモジュールと通信するためのルーティングインターフェイス
と、入出力外部サブシステムと通信するための入出力インターフェイスとを含む処
理ノード。
【請求項１８】ノードは、大域的共有メモリアドレス空間で動作する請求
項１７の処理ノード。
【請求項１９】ノードの共通通信インターフェイスは、入出力インターフ
ェイスを介して別のかかるノードの共通通信インターフェイスに直接結合される
請求項１７の処理ノード。
【請求項２０】ノード内で低レベルの通信を制御するシステムコントロー
ラをさらに具備する請求項５の処理ノード。
【請求項２１】ルーティングインターフェイスは、高速ＵＳＢを有する請
求項１７の処理ノード。
【請求項２２】共通通信インターフェイスは、複数のインターフェイス制
御ユニットを有する請求項１７の処理ノード。
【請求項２３】共通通信インターフェイスは、高いデータ速度により外部
インターフェイス間でデータを交換するために各インターフェイス制御ユニット
を通信可能に結合する中央クロスバーを有する請求項２２の処理ノード。
【請求項２４】共通通信インターフェイス内の各インターフェイス制御ユ
ニットは、クロスバーを介してメッセージを送信して通信する請求項２２の処理
ノード。
【請求項２５】メッセージプロトコルは、要求及び応答より成る同期メッ
セージプロトコルである請求項１７の処理ノード。
【請求項２６】クロスバーは、メッセージを内部メッセージフォーマット
に変換する請求項２２の処理ノード。
【請求項２７】クロスバーは、各ユニットを接続する物理的チャンネルで
メッセージを多重化することによりメッセージを２つの内部バーチャルチャンネ
ルにわたり伝送する請求項２２のシステム。
【請求項２８】１つの機能的に独立の処理ノードが大域的共有アドレス空
間で動作し、各ノードは１またはそれ以上のローカルプロセッサ及びローカルメ
モリを有し、各処理ノードはメッセージプロトコルによりシステム内の他のモジ
ュールと通信するための共通通信インターフェイスを有し、さらに、共通通信イ
ンターフェイスはノードを１またはそれ以上の外部処理ノード、外部ルーティン
グモジュールまたは入出力モジュールと作動的に結合するために各ノード内に単
一の高速通信センターを提供するモジューラー型計算システム。
【請求項２９】計算システムは、任意の組合せの処理ノード及び他のモジ
ュールを有し、そのため処理ノードと他のモジュールの数との間に固定した関係
が不要である請求項２８のシステム。
【請求項３０】１組の機能的に独立の処理ノードが複数の計算トポロジー
の１つを形成するために作動的に結合可能であり、計算トポロジーが多数の処理
ノードをサポートし、さらに、各計算トポロジーはより少ない処理ノードをサポ
ートする計算トポロジーのスーパーセットであるモジューラー型計算システム。
【請求項３１】各処理ノードは、そのシステム内の他の処理ノードと通信
するための共通通信インターフェイスを有する請求項２８の計算システム。
【請求項３２】モジューラー型計算システムのための処理ノードであって
、１またはそれ以上のローカルプロセッサと、ローカルメモリと、ローカルプロセッサ及びローカルメモリに結合された共通通信インターフェイ
ス手段とより成り、共通通信インターフェイス手段は、１またはそれ以上の外部処理ノードと通信するための手段と、ローカルプロセッサ及び外部プロセッサノードによりローカルメモリと通信す
るための手段と、外部ルーティングモジュールと通信するための手段と、入出力外部サブシステムと通信するための手段とを含む処理ノード。
【請求項３３】１組の機能的に独立の処理手段と有し、この処理手段は複
数の計算トポロジーの１つを形成するように作動的に結合可能であり、各計算ト
ポロジーは多数の処理手段をサポートし、さらに、計算トポロジーはより少ない
処理手段をサポートする計算トポロジーのサブセットであるモジューラー型計算
システム。
【請求項３４】各処理手段は、システム内の他の処理手段と通信するため
の共通通信インターフェイスを有する請求項３３の計算システム。