JP2001514463A

JP2001514463A - 仮想チャネル割当てを持つルータ

Info

Publication number: JP2001514463A
Application number: JP2000508177A
Authority: JP
Inventors: ダリー・ウィリアム・ジェー; カーベイ・フィリップ・ピー; デンニソン・ラリー・アール; キング・ピー・アレン
Original assignee: エイヴィシー・システムズ
Priority date: 1997-08-22
Filing date: 1998-08-20
Publication date: 2001-09-11
Also published as: KR100615724B1; US20040160970A1; AU8904898A; WO1999011033A1; CA2301112A1; KR20010023195A; US6654381B2; EP1641195A1; ATE313891T1; DE69832884T2; EP1005745A1; US20010038634A1; DE69832884D1; EP1005745B1; US20070140240A1; US6285679B1; US6563831B1; US8325715B2

Abstract

(57)【要約】インターネットルータは、ファブリックルータおよびリンクのネットワークファブリックとして実行される。インターネットルータは、データパケットを中継線、または他のインターネットリンクから受け取り、データパケットの中のヘッダ情報を分析して、データパケットを出力インターネットリンクにルーティングする。またラインインターフェースは、ヘッダを分析してルータファブリックを通るファブリックの経路を定義する。インターネットパケットは、フリットに分割され、これは虫穴的（パケットを連続でなく回線の空いた部分に分割して送信する意味）ルーティングプロトコルによってルータを通して転送される。フリットは、宛先インターネットリンクに対応する仮想チャネルに指定された格納位置に於けるファブリックルータ内に格納される。ファブリック内の仮想チャネルおよびリンクは仮想ネットワークを定義し、その仮想ネットワーク中では、１つ仮想ネットワーク中の混雑が他の仮想ネットワークを通るデータの流れを実質的に妨害しない。調整は各ファブリックルータで実行され、仮想チャネルに対してパケットを割当て、また出力ファブリックリンクに対して仮想チャネルを割当てる。データパケットは、複数バーチャルチャネルへのアクセスを共有し、アクセスは分散コードベクタにより定義される。仮想チャネルは、経路の次のファブリックルータにおける特定の入力バッファが利用可能であることの表示を確認した上で、出力ファブリックリンクに対し可能な割当てを付与する。

Description

【発明の詳細な説明】

【０００１】

【従来の技術】

ウエブブラウジング、電子メール、ファイル転送および電子商取引などの利用
におけるコンピュータシステム間のデータ通信は、多くの場合ＩＰ（インターネ
ットプロトコール）および時としてＴＣＰ／ＩＰとして知られる一群のプロトコ
ルを用いて行われる。広範なデータ通信を用いる用途が次第に普及するにつれて
、バックボーンであるＩＰネットワーク上のトラフィック量は指数関数的に増大
しつつある。毎秒テラビットの総合帯域幅で動作する数百のポートを持つＩＰル
ータが、バックボーンの需要の増加にこたえるために今後の数年には必要となる
。

【０００２】図１に示されるようにインターネットは、ネットワーク階層で構成されている
。代表的なエンドユーザは、ローカルエリアネットワークつまりＬＡＮ２４に接
続されたワークステーション２２を有している。ＬＡＮ上のユーザがインターネ
ットの他の部分にアクセスすることを可能にするために、ＬＡＮは、ルータＲを
介して地域ネットワークプロバイダつまりＲＮＰにより維持操作される地域ネッ
トワーク２６に接続されている。接続は、しばしばインターネット・サービス・
プロバイダつまりＩＳＰを通じて行われる。他の地域にアクセスするには、地域
ネットワークはネットワーク・アクセス・ポイント（ＮＡＰ）においてバックボ
ーンネットワーク２８に接続される。ＮＡＰは、通常主要都市に存在する。

【０００３】ネットワークは、リンクとルータから構成される。ネットワークバックボーン
においては、リンクは通常ＳＯＮＥＴ（シンクロナスオプティカルネットワーク
）プロトコルを使用する光ファイバー通信チャネルである。ＳＯＮＥＴリンクは
、ＯＣ−３（１５５Ｍｂ／秒）からＯＣ−１９２（９．９Ｇｂ／秒）にまたがる
各種のデータレートを可能にする。これらのリンクは、時として中継線と呼ばれ
、データを或る点から別の点に、しばしば遠距離を移動させる。

【０００４】ルータは、リンクのグループを互いに接続し、転送とルーティングの２つの機
能を果たす。ルータの一つのリンクに到達するデータパケットは、その時の最終
宛先および出力リンクの状態により別々のリンクに送り出して転送する。特定の
パケットに対する出力リンクを算出するために、ルータはルーティングプロトコ
ルに参画し、そこではインターネット上のルータのすべてがネットワークの接続
性に関する情報を交換し、ルーティングテーブルをこの情報に基づいて算出する
。

【０００５】大抵の公知のインターネットルータは、汎用バス（図２）、またはクロスバー
スイッチ（図３）を基本にしている。例えば図２のバスをベースとするスイッチ
において特定のＳＯＮＥＴリンク３０は、ラインインターフェース・モジュール
３２に接続されている。このモジュールは入って来るＳＯＮＥＴストリームから
パケットを抽出する。送られて来る各パケットに対しラインインターフェースは
、パケットヘッダを読み、この情報を用いてパケットを送る出力ポート（複）を
決定する。パケットを転送するために、ラインインターフェースモジュールは、
汎用バス３４を調整する。バスが許可されると、バケットはバスを経て出力ライ
ンインターフェースモジュールに伝送される。モジュールは、その後パケットを
発信ＳＯＮＥＴリンク３０上を宛先へのルート上の次のホップに伝送する。

【０００６】

【発明が解決しようとする課題】

バスをベースとするルータは、帯域幅と拡張性に関して限定されている。セン
トラルバスは、すべてのトラフィックが通過する必要があるボトルネックとなる
。例えば高速バスは、１２８ビット幅のデータ路を５０ＭＨｚで用いることによ
り６．４Ｇｂ／秒の総合帯域幅を可能にするが、バックボーンスイッチの必要と
する毎秒テラビットには遥かに及ばない。更にバスのファンアウト制限は、バス
をベースとするスイッチ上のポートの数が通常３２を超えないように制限してい
る。

【０００７】バスの帯域幅制限は、図３に図示されたクロスバースイッチを用いて克服する
ことができる。Ｎラインインターフェース３６に対しては、スイッチはＮ（Ｎ−
１）クロスポイントを含み、各々は１つの円により表わされる。各ラインインタ
ーフェースは、その入力として、他のラインインターフェースのどれでも選択で
き、適切な交点３８で交わる２本のラインを接続する。この構成を用いてパケッ
トを転送するために、ラインインターフェースは、必要な出力ラインインターフ
ェースを調整する。要求が許可された場合には、適切な交点が閉じられ、データ
が入力モジュールから出力モジュールに伝達される。クロスバーは、多くの入力
を同時に多くの出力に接続可能であるから、この構成はバスをベースとするスイ
ッチの帯域幅の何倍もの値を可能にする。

【０００８】帯域幅の増加にもかかわらず、クロスバーをベースとしたルータは、ＩＰバッ
クボーンルータに対して必要とされる拡張性と帯域幅を欠いている。各入力が各
出力に接続されるクロスバー接続により、必要とされるファンアウトおよびファ
ンインは、ポートの数が通常３２を越えないことをその限度とする。この拡張性
の限界は、また帯域幅に限界をもたらす。例えば公知のクロスバーは、３２の３
２ビットチャネルを２００ＭＨｚで同時に作動し、その時のピークの帯域幅は２
００Ｇｂ／秒となる。これでもバックボーンＩＰルータの必要とする帯域幅には
及ばない。

【０００９】

【課題を解決するための手段】

帯域幅と拡張性に限界がある一方で、クロスバーをベースとするルータは２つ
の好ましい特徴を持つ：１．これらはブロッキングを起こさない。２つの入力が同一出力と交信するこ
とを要求しない限り、すべての入力は要求される出力に同時に接続される。一つ
の出力が混雑した時には、この出力へのトラフィックは他の出力に向かうトラフ
ィックを阻害することはない。２．それらは確実なバックプレッシャを提供する。発信元と宛先との間のクロ
スバーによる直接接続は、通常即時フローコントロールに用いることのできる逆
チャネルを備えている。例えばこのバックプレッシャを、過負荷状態の宛先が使
用して、発信元にデータの送信を停止する信号を出すことができる。

【００１０】インターネットバックボーンに対するルーティングの要求に適合するために、
本発明では、これらの２つの特徴を維持しながら、数オーダー大きい帯域幅と拡
張性を提供する。

【００１１】本発明の一構成によれば、クロスバーをベースとするインターネットルータの
長所は、ルータ自身をマルチホップネットワークとして実行することにより、よ
り大きい帯域幅と拡張性をもたらすことができる。

【００１２】本発明を具現化するインターネットルータは、複数のインターネットリンクか
らデータパケットを受け取り、データパケットの中のヘッダ情報を分析して、デ
ータパケットを出力インターネットリンクにルーティングする。インターネット
ルータは、ファブリックルータにより結合されたファブリックリンクのファブリ
ックを包含し、各ファブリックルータへのファブリックリンクの数は、インター
ネットルータに接続されるインターネットリンクの数を実質的に下回る。ファブ
リックリンクおよびファブリックルータは、ファブリックを通り一つ、または複
数のホップでのインターネットリンク間のデータ通信を可能にする。例えば、１
つの実施形態では、６００インターネットリンクは６×１０×１０の３次元トー
ラス・ファブリック・アレーによりサービスされる。

【００１３】各ファブリックルータに複数のバッファを設けることにより、ファブリック出
力リンクを共有する仮想チャネルを定義できる。仮想チャネルおよびリンクは、
インターネットルータ入力および出力の間に仮想ネットワークを形成し、この中
では一つの仮想ネットワークの中の混雑が他の仮想ネットワークを通るデータの
流れをブロックすることは殆ど起こらない。各インターネットリンクへのライン
インターフェースは、インターネットリンクから受け取られるデータパケット中
のヘッダ情報を分析して、インターネット・ルーティング・プロトコルを通じ出
力インターネットリンクを特定する。ラインインターフェースは、更にファブリ
ック・ルーティング・プロトコルによりファブリックを通り特定された出力イン
ターネットリンクへのルーティング経路を決定する。パケットは、ラインインタ
ーフェースにおいてセグメント、またはフリット（フロー・コントロール・ディ
ジット）に再分割され、これらのセグメントは、ファブリックを通り虫穴（worm
hole：パケットを連続でなく回線の空いた部分に分割して送信する意味）ルーテ
ィングを使用して転送される。ラインインターフェースは、ヘッダ中にファブリ
ックを通るルーティング経路を定義できる。このヘッダーには、ルーティング経
路の中の各連続リンクのリンク定義を含む。ルーティング経路に沿った各ファブ
リックルータは、パケットの連続セグメントを転送するために、ヘッダから関連
するリンク定義を格納する。

【００１４】好ましくは、ファブリックリンク上のホップの間で、フリットは、宛先インタ
ーネットリンクに対応する仮想チャネルに割当てられた格納位置にあるファブリ
ックルータに格納される。１つの実施形態においては、宛先インターネットリン
クのセットは互いに共通要素を持たないサブセットに分割され、各仮想チャネル
は、宛先インターネットリンクの一つのサブセットに限定して割当てられる。好
ましい実施形態においては、インターネットルータに接続されるインターネット
リンクの数は、各ファブリックルータへのファブリックリンクの数より少なくと
も１オーダ大きく、またファブリックルータ当りの仮想チャネルの数は、ファブ
リックルータへのリンクの数よりも著しく大きい。

【００１５】データパケットの間で仮想チャネルを共有し、仮想チャネルの間でファブリッ
クリンクを共有するために、調整が各ファブリックルータにおいて行われること
により、パケットがファブリックルータからの出力に対する仮想チャネルに割当
てられ、仮想チャネルがファブリックルータからの出力ファブリックリンクに割
当てられる。フローコントロールでは、リンクの反対端にある入力バッファが利
用できるという信号を受取ると、仮想チャネルに出力ファブリックリンクへの割
当てを可能にする。

【００１６】マイクロコンピュータを含むインターネットルータおよび他のネットワークル
ータに適用可能な本発明の別の構成は、データパケットをルーティングするルー
タ内の仮想チャネルを操作するイベントドライブ技術に関するものである。ルー
タは、データパケットの一部を受け取る物理的入力チャネル、物理的出力チャネ
ルおよび物理的入力・出力チャネルに結合されているデータバッファを備えてい
る。データバッファは、データパケットの一部を格納する。ルータは、更に物理
的入力・出力チャネルおよびデータバッファに結合されたコントロール回路を備
える。コントロール回路は、待機イベントに応じてチャネル割当てを作成し、デ
ータパケットの一部を作成されたチャネル割当てに従って物理的出力チャネルを
通じて出力する。好ましくは、コントロール回路は、仮想チャネルをデータパケ
ットに割当てし、待機イベントに応じて仮想チャネルに物理的出力チャネルを割
当てる。１つの実施形態においては、ルータは更に物理的入力チャネルおよび物
理的出力チャネルと結合されたラインインターフェースを含むことにより、ルー
タはインターネット・スイッチ・ファブリック・ルータを形成する。別の実施形
態においては、ルータは更に物理的入力・出力チャネルと結合されたマルチコン
ピュータインターフェースを含むことにより、ルータがマルチコンピュータシス
テムのためのマルチコンピュータルータを構成する。

【００１７】好ましい実施形態によれば、コントロール回路は、物理的出力チャネルに対応
する出力コントローラを包含する。各出力コントローラは、出力仮想チャネルの
状態を記録する状態テーブルを持ち、出力仮想チャネルに接続する入力仮想チャ
ネルを特定する。入力仮想チャネルは、データパケットの一部を保持する。

【００１８】各出力コントローラは、多数の到着待ち行列から到着イベントを選択するのに
適合するアービタ、および選択された到着イベントに応じて出力仮想チャネルを
割当てるための出力コントローラ状態テーブルにアクセスする状態テーブルロジ
ックを備えている。各状態テーブルは、出力仮想チャネルに対応する状態ベクタ
を包含する。

【００１９】各状態ベクタは、当該状態ベクタの対応する出力仮想チャネルがデータパケッ
トに割当てられているか否かを示す動作表示を含む。更に各状態ベクタは、物理
的入力チャネルの何れが当該状態ベクタの対応する出力仮想チャネルへの割当て
を待っているデータパケットの少なくとも一部を受け取ったかを示す待ち領域を
含む。さらに各待ち領域は、物理的入力チャネルがデータパケットの一部を受け
取った順序を示す。さらに各状態ベクタは、当該状態ベクタの出力仮想チャネル
を通して下流ルータに転送するための、複数のデータパケットの部分の存在を示
す存在領域を包含する。更に各状態ベクタは、当該ベクタの対応する出力仮想チ
ャネルに接続された下流ルータで利用することのできるバッファスペースの量を
示すクレジット領域を包含する。

【００２０】各出力コントローラは、更に待ちイベントに応じて当該出力コントローラの状
態テーブルがアクセスされる時に、転送要求を待ち行列に加える転送回路を備え
、待ち行列の転送要求に従って、当該出力コントローラの物理的出力チャネルを
通してデータパケットを転送する。データパケットの各部分は、データパケット
のフリットである。各転送回路は、待ち行列の転送要求に応じてフリットを伝送
する。

【００２１】各出力コントローラは、下流ルータからのクレジットイベントを受け取り、転
送要求を待ち行列に加えて、受け取ったクレジットイベントに応じて該当の物理
的出力チャネルを介してデータパケットの一部を転送する。１つの実施形態にお
いては、待ち行列イベントはテール・クレジット・イベントを含み、出力コント
ローラは、テール・クレジット・イベントに応じてのみ仮想チャネルを解放する
。

【００２２】コントロール回路は、複数の仮想チャネルにより共有でき、イベントに応じて
特定の仮想チャネルを扱うための機能を付与される。

【００２３】好ましくは、コントロール回路を、データパケットに仮想チャネルを割当てる
仮想チャネル割当てを作成するのに適用し、物理的出力チャネルを仮想チャネル
に割当てる物理的チャネル割当てを作成するのに適用する。割当ての各々は、待
ち行列の到着およびクレジットイベントに応じて作成することができる。データ
パケットの一部は、作成された仮想および物理的チャネル割当てに従ってデータ
バッファから物理的出力チャネルに転送される。

【００２４】主たる実行においては、特定の宛先に混雑があっても、データパケットを確実
に流し続けるために、各宛先ノードには、各ルータに固有の仮想チャネルを有す
る仮想ネットワークが割当てられる。特定の出力に向けられたデータパケットは
すべて、その宛先に対する固有の仮想チャネルに対応するデータバッファに格納
され、従って１つのデータパケットをブロックする混雑は必ずしも他のデータパ
ケットをブロックするとは限らない。

【００２５】上記のアプローチは、バッファスペースを浪費し、その拡張性には限界がある
。本発明の別の構成によれば、ファブリックルータに限界を設けることなく任意
のルータに適用することのできる仮想ネットワークは、仮想チャネルを共有する
ことによりバッファ割当てをオーバーラップさせて構築される。しかし１つの仮
想ネットワークの混雑が他の仮想ネットワークに於ける伝送をブロックすること
を防ぐためには、仮想ネットワークの共有するチャネルを、全仮想チャネル以下
にすることである。

【００２６】本発明のこの構成によれば、データパケットのルーティングのためのルータは
、物理的入力チャネル、物理的出力チャネル、および物理的入力・出力チャネル
に結合されたデータバッファから構成され、データパケットの少なくとも一部を
格納する。物理的入力・出力チャネルおよびデータバッファに結合されているコ
ントロール回路は、物理的チャネル上に多重化された仮想チャネルへのデータパ
ケットの割当てを作成する。第１のデータパケットは、サイズＣ₁の仮想チャネルの第１セットへのアクセスを有し、また第２データパケットは、サイズＣ₂の仮想チャネルの第２セットへのアクセスを有する。０＜Ｓ＜Ｃ₁およびＳ＜Ｃ₂の
条件下では、サイズＳの第１および第２セットの交点が存在する。この結果、デ
ータパケットは、他のデータパケットがアクセスを有する複数仮想チャネルへの
アクセスを共有することが可能になり、第１データパケットはすべてではないが
いくつかの仮想チャネルを第２データパケットと共有できる。

【００２７】好ましくは、実質的にすべてのデータパックが複数の仮想ネットワーク上をル
ーティングし、各仮想ネットワークｉがその仮想チャネルのサイズＣｉのサブセ
ットを使用する。複数の仮想ネットワークの仮想チャネルサブセットはオーバー
ラップし、Ｓ＜Ｃ_iを越えることのない仮想チャネルを共有する。

【００２８】好ましいルータにおいては、第１パケットは、第１仮想ネットワーク上をルー
ティングし、第２パケットは、第２仮想ネットワーク上をルーティングする。第
１仮想ネットワーク上をルーティングしたすべてのパケットは、仮想チャネルの
第１セットを共有し、第２仮想ネットワーク上をルーティングしたすべてのパケ
ットは、仮想チャネルの第２セットを共有する。

【００２９】好ましくは、各仮想ネットワークは、ネットワーク中の互いに反対の１対のノ
ードのような、宛先ノードの特定のセットに向けられたパケットを持つ。仮想チ
ャネルの各セット中の少なくとも１つの仮想チャネルは、宛先ノードアドレスに
より、具体的には宛先ノードの寸法座標により決定することができる。

【００３０】寸法間のデッドロックを防止するには、各仮想ネットワーク中の、特定の反転
を禁止してもよい。１つの実施形態において、２つの仮想ネットワークが宛先ノ
ードの各セットに割当てられ、別の反転が２つの仮想ネットワークの各々におい
て禁止される。別の実施形態においては、単一仮想ネットワークが宛先ノードの
各セットに割当てられる。この単一仮想ネットワークにおいて、複数反転を禁止
することができる。

【００３１】好ましい実施形態においては、コントロール回路は、物理的出力チャネルに対
応する出力コントローラを備えている。各出力コントローラは、出力仮想チャネ
ルの状態を記録し、データパケットの部分を保持する入力仮想チャネルを特定す
る状態テーブルを持つ。状態テーブルロジックは状態テーブルにアクセスして、
出力仮想チャネルを割当てる。状態テーブルには、各仮想ネットワークに対する
仮想チャネル割当てベクタ、および物理的出力チャネルで使用中の仮想チャネル
を示す使用中ベクタを含むことができる。出力仮想チャネルは、仮想チャネル割
当てベクタおよび使用中ベクタの組み合わせから選ばれる。

【００３２】ルータの１つの用途は、マルチコンピュータネットワークの中のルータであり
、また別の用途は、インターネット・パケット・ルータ内のファブリックルータ
である。

【００３３】

【発明の実施の形態】

インターネットルータの実行においては、本発明は、マルチプロセッサからそ
のテクノロジーを借り受け、このテクノロジーを変更して、インターネットルー
タの固有の特性と要求に適合させるものである。具体的には、各インターネット
ルータは、それ自体直接または間接ネットワークのどちらの形態でもとれる。

【００３４】マルチコンピュータおよびマルチプロセッサは、何年にもわたり、直接および
間接相互接続ネットワークを使用して、プロセッサとメモリバンク間のメモリア
クセスのためにアドレスおよびデータを送信し、或いはプロセッサ間のメッセー
ジを送信してきた。以前のマルチコンピュータは、図２および３に示されたバス
およびクロスバー相互接続を用いて構成されていた。しかしこれらのマシンを大
きな数のプロセッサにスケールアップするために、それらは直接および間接相互
接続ネットワークに切り替えられた。

【００３５】図４に図示された直接ネットワークは、１組のプロセスノード４０から構成さ
れ、その各々はプロセッサＰと共にルータＲおよび幾つかのメモリＭを含む。こ
れらのマルチコンピュータルータは、上記のＩＰルータと混同してはならない。
それらの機能は、送信に限られ、またマルチコンピュータ相互接続ネットワーク
の極めて制約された条件の下に限定されている。各マルチコンピュータルータは
、ネットワークの中の他のルータとの、いくつかの数、例えば４つ、の接続を持
つ。プロセスノードは、メッセージを送り、またはシステム内の他のノードにメ
モリアクセスすることができる。通信は、隣接ノードとの間に限定されることは
ない。離れたノードへのメッセージは、ルータにより発信元と宛先ノード間の経
路に沿って転送される。

【００３６】図４に示されたネットワークは、直接ネットワークといえる、何故ならばチャ
ネルは、システムのプロセスノード間で直接形成されるからである。これとは反
対に、図５は間接ネットワークを示し、この中ではプロセスノード４２間の接続
は、１組のルータ専用スイッチノード４４を介して間接的に形成される。直接ネ
ットワークが、一般に多数のマシンに好まれるのはその拡張性のためである。間
接ネットワークは、通常一定数のノードに対して用いられるのに対し、直接ネッ
トワークはノードと共に増加する。ノードが増加するに伴い、ネットワークは加
算される、何故ならばネットワークの小さな一部分、１台のルータ、が各ノード
に含まれているからである。

【００３７】マルチコンピュータネットワークは、１９９０年ＳｕａｙａａｎｄＢｉｒ
ｔｗｉｓｔｌｅ，ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，Ｉ
ｎｃ．により出版されたＷ．Ｊ．Ｄａｌｌｙ，“ＮｅｔｗｏｒｋａｎｄＰｒ
ｏｃｅｓｓｏｒＡｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒＭｅｓｓａｇｅ−Ｄｒ
ｉｖｅｎＣｏｍｐｕｔｉｎｇ"，ＶＬＳＩａｎｄＰＡＲＡＬＬＥＬＣＯＭＰＵＴＡＴＩＯＮの１４０〜２１８頁に記載されている。特筆すべきは、マル
チコンピュータネットワークが大陸にまたがるインターネット・バックボーン・
ネットワークと異なり単一キャビネット、または室に限定されていることである
。

【００３８】直接および間接マルチコンピュータネットワークは、拡張可能である。大部分
が共通トポロジのため、各ノードのファンインおよびファンアウトは、マシンの
サイズにかかわらず一定である。また各リンク上のトラフィック負荷は、一定か
、またはマシンサイズによって極めてわずかに増加する関数である。この拡張性
のために、これらのネットワークは、何千ものプロセスノードを持つ並列コンピ
ュータを構築するのに用いられて成功してきた。

【００３９】残念乍ら、マルチコンピュータネットワークは拡張性を持つが、ＩＰスイッチ
ングにとって決定的なクロスバーネットワークの２つの性質：ブロッキングのな
い特性および堅牢なバックプレッシャを欠くのである。大抵の商用的な直接およ
び間接ネットワークはブロッキングを起こす。リンクは、多数の発信元−宛先の
対の間で共有されるために、１対のノード間で使用中の接続は、完全に別個のノ
ード対の間に新しい接続を作り出すことを阻止することがある。マルチコンピュ
ータネットワークに於けるパケットは、各リンクにかなりの待ち行列を伴って複
数のリンク上に送り出されるために、過負荷の宛先ノードから発信元ノードへの
バックプレッシャが存在するとしても遅く、かつソフトである。

【００４０】これらのスイッチのブロッキング特性およびバックプレッシャのソフトな特性
は、マルチコンピュータにとっては問題ではない、何故ならばマルチコンピュー
タのトラフィックはセルフ-スロットル的であるからである。プロセッサが僅かな数のメッセージ、またはメモリ要求（通常１−８）を送信した後にはそれが一
つ、または複数の回答を受け取る迄は追加のメッセージを送ることはできない。
従ってネットワークがブロッキング、または混雑のために速度が落ちた時は、プ
ロセッサが回答を待って休止するために、ネットワークに提供されたトラフィッ
ク速度は自動的に低下する。

【００４１】他方ＩＰスイッチは、セルフ-スロットル性を持たない。ネットワーク内のあるチャネルがブロックされ、または混雑しても、提供されたトラフィック速度は
低下しない。パケットは、ネットワークの状態によらず入力リンクを経てスイッ
チに引き続き到達する。このためにＩＰスイッチ、または変更されないマルチコ
ンピュータネットワークから構築されたルータはツリー飽和し、最初のブロッキ
ングに含まれていない多くのノードに対するサービスを拒否する。更に、ルーテ
ィングテーブルを算定する際のエラーのために、ＩＰルータにはしばしば過渡状
態を発生させ、そこでは１つの出力ノードが持続時間中オーバーロードとなるこ
とがある。これは、他のノードが影響を受けないために、クロスバールータにと
っては問題にならない。しかしマルチコンピュータネットワークに対しては、こ
れはツリー飽和をもたらす。

【００４２】図６に示された状態を考察する。２次元メッシュネットワークに於ける単一ノ
ード、ラベルａを持つノード（３、３）、は到達メッセージによりオーバーロー
ドとなる。メッセージが到達する速度でチャネルから離れてメッセージを受け取
ることができないので、ノード（ｂ、ａ）、（ｃ、ａ）、（ｄ、ａ）、（ｅ、ａ
）への４つの入力チャネルすべてが混雑しブロックされる。これらのブロックさ
れたリンクを経由して転送しなければならないノードｂ−ｅに到達するトラフィ
ックは進むことができず、エッジに沿ってノードｂ−ｅに後退する。例えばノー
ドｂへのトラフィックは、（ｆ、ｂ）、（ｇ、ｂ）および（ｈ、ｂ）に沿って後
退する。ブロック状態が解消されない場合には、ｆ−ｈへのチャネルおよび関連
のノードもまたブロックされ、以下同様に続く。ノードａ上の過負荷が続く時に
は、場合によってはネットワークのチャネルの大部分は、飽和ツリーがノードａ
から外方に拡大するためにブロックされる。

【００４３】ツリー飽和の主たる問題は、それがノードａに向けられていないトラフィック
に影響を及ぼすことである。例えば（１、４）から（５、３）へのパケットは、
例えば（ｆ、ｂ）および（ｂ、ａ）を含む経路（点線）に沿ってルーティングす
ることができる。これらのリンクはブロックされているから、ノード（１、４）
からノード（５、３）へのトラフィックは、これらのノードが過負荷ではなくて
もブロックされる。

【００４４】本発明のルータは、ルータとしてマルチホップ相互接続ネットワーク、特に３
次元トーラスネットワークを用いることにより、公知のバスおよびクロスバーベ
ースのルータの帯域幅および拡張性の制限を解消する。この機構を用いることに
より、広域バックボーンネットワークの各ルータは、小型のキャビネット内ネッ
トワークを含むことになる。混同を避けるために本発明は、各ルータの中の小さ
いネットワークをスイッチングファブリックと称し、このネットワークの中のル
ータおよびリンクをファブリックルータおよびファブリックリンクと呼ぶ。

【００４５】マルチコンピュータネットワークと異なりスイッチング・ファブリック・ネッ
トワークは、ブロックすることがなく確実なバックプレッシャを提供する。これ
らのクロスバー類似の属性は、ネットワークに於ける各宛先ノードに対する別個
の仮想ネットワークを提供することにより実現する。

【００４６】インターネットを通じて送られる代表的なパケットは、５０バイトから１．５
キロバイトにわたる。本発明のインターネットルータのファブリックネットワー
クを通るトラフィックに対してパケットは、それぞれが３６バイトのセグメント
、またはフリットに分割される。パケットの第１フリットに含まれる少なくとも
ヘッダは、ルータのファブリックを通してデータトラフィックをコントロールす
るために変更される。好ましいルータでは、データは虫穴ルーティングプロトコ
ルに従いファブリックを通して伝送される。

【００４７】各仮想ネットワークは、１組のバッファを含む。各仮想ネットワークに対する
１つ、または複数のバッファは、ファブリック内の各ノードに設けられる。各バ
ッファは、メッセージの少なくとも１つのフローコントロールディジット、また
はフリットを保持するためのサイズを持つ。仮想ネットワークは、すべて現実の
ファブリックネットワークのノード間の物理的チャネルの１組を共有する。公平
な調整ポリシーを使用して、競合する仮想ネットワーク上の物理的チャネルの使
用を多重化する。各仮想ネットワークは、そのメッセージのフリットを保持する
ために利用できる別のセットのバッファを持つ。

【００４８】対の仮想ネットワークＡおよびＢの各々については、Ａに割当てられたバッフ
ァのセットは、少なくともＢに割当てられていない１つのバッファを含む。従っ
て、ネットワークＢがブロックされる場合に、Ａがメッセージを送るときは、他
の仮想ネットワークとは共有されている可能性はあるが、Ｂとは共有されていな
いこのバッファを用いることができる。

【００４９】仮想ネットワークを構築する一つの簡単な方法は、各仮想ネットワークに対す
る、従って各宛先に対する各ノード上に個別のフリットバッファ、仮想チャネル
を設けることである。例えばＮ＝５１２ノードを、従って５１２宛先を持つマシ
ンにおいて、各ノードは５１２の個別のフリットバッファを持つことになる。各
ノード上のバッファｉは、ノードｉに向かうメッセージのフリットを保持するた
めにのみ用いられる。この割当ては、上記の制約を満たす、何故ならば各仮想ネ
ットワークは、仮想ネットワーク間でバッファを共有することなく各ノード上で
バッファの単独セットに付随するからである。単一仮想ネットワークが混雑する
と、そのバッファのみが影響を受け、またトラフィックは妨害されることなく他
の仮想ネットワーク上で続く。上記に代わる分散的アプローチが次に考察される
。

【００５０】好ましいルータは、図７に図示されたようなノードの３次元トーラスネットワ
ークである。各ノードＮは、出入りするＳＯＮＥＴインターネットリンクに接続
されるラインインターフェースモジュールを含む。これらのラインインターフェ
ースノードの各々は、トーラスに於ける６つの隣接するノードに対するファブリ
ックリンクを含むスイッチファブリックルータを含む。例えばソードＡ上で１つ
のＳＯＮＥＴリンクを介して到達するＩＰパケットは検査されて、インターネッ
トルータ、例えばノードＢ、を残しておくＳＯＮＥＴリンクを決定され、次にＡ
からＢに３次元トーラススイッチファブリックを経て転送される。

【００５１】各ノード、またはラインインターフェースモジュールの構成は、図８に図示さ
れている。パケットは、入力側ＳＯＮＥＴリンク４６を経て到達し、またライン
インターフェース回路４８は光入力を電気信号に変換し、パケットとそれらのヘ
ッダを入力スト−ムから抽出する。到達パケットは、次に転送エンジンハードウ
エア５０に渡され、パケットメモリ５２に格納される。転送エンジンは各パケッ
トのヘッダを使用して、そのパケットに対する必要な出力リンクを探す。従来の
ＩＰルータの方式では、この検索はヘッダ領域での指標を持つツリーをトラバー
スすることにより行われる。ツリーの葉は、従来のＩＰルータに於けるように必
要な出力リンクを含み、追加的に出力リンクへのスイッチファブリックを通るル
ートを含む。最後にパケットは、その宛先と経路と共に出力ノードへのファブリ
ックを通して送るためのノードのファブリックルータ５４に渡される。出力ノー
ドのファブリックルータ５４から、パケットはそのノードのパケットバッファ５
２を通り、また出力リンク５６へのラインインターフェース回路４８を通して配
送される。

【００５２】インターネットルータ内のパケットは、入力中継線に接続されているラインイ
ンターフェースモジュールから出力中継線に接続されているラインインターフェ
ースモジュールに発信元ルーティングを用いて転送される。発信元ルーティング
においては、中間ファブリックルータを通るリンクのルートは、入力モジュール
のテーブル検索により決められる。この検索を転送エンジンが実行した後に、パ
ケットをファブリックルータに渡す。別の各経路は、故障許容と負荷バランスの
ためのものである。

【００５３】発信元ルートは、１０エレメントベクタであり、この場合各エレメントは３ビ
ット・ホップ・フィールドである。各ホップフィールドは出力リンクをコード化
して、そのルートの１ステップ、６つのノード間リンクの１つまたは現在のノー
ドのパケットバッファへの第７リンクに対して、パケットを取り込めるようにす
る。８番目のコード化は使用されない。この１０エレメントベクタは最大１０ホ
ップの全ルートをコード化できる。これは、６×１０×１０トーラスの中のすべ
てのノード対間のルートにとって充分な数である。短いルートに対しては、１０
エレメントのすべてを必要とすることのないことに留意すること。最後に用いら
れるエレメントは、パケットバッファ５２に対するリンクを選択するか、または
１０ホップルートを意味することができる。

【００５４】パケットがルートに沿った各ファブリックノードに到達する時、そのパケット
に対するローカル転送ベクタ入力は、発信元ルートの最も左のエレメントに等し
く設定される。次に発信元ルートは、３ビット左へシフトしてこのエレメントを
廃棄し、そのルートの次のエレメントを次のルータに提供する。このシフト中、
このノードのパケットバッファに対応する３ビットコードが右から中に移される
。そのパケットの中のその後のフリットは、ルータのそのパケットに対して格納
されたルーティングに従う。

【００５５】当業者には、ファブリックルートのコード化には多くの方法の存在することが
理解できるであろう。別の実施形態においては、パケットが各次元の好ましい方
向に移動する傾向のある事実をファブリックルートの更にコンパクトなコード化
を行うために利用することができる。この実施形態においては、ルートは多様な
２ビット・ホップ・フィールドが後に続く３ビットの好ましい方向としてコード
化される。３ビットフィールドは、ネットワークの各次元（ｘ、ｙおよびｚ）に
対する好ましい方向（正または負の）をコード化する。ルートの各ステップまた
はホップに対しては、２ビットフィールドは、次のホップの取るべき次元を選ぶ
（０＝ｘ、１＝ｙ、または２＝ｚ）。このホップの方向は好ましい方向フィール
ドにより決まる。２ビートホップフィールド（３）の第４のコード化は、エスケ
ープコードとして用いられる。ホップフィールドがエスケープコードを含む場合
、次のホップフィールドはルートを決定するために用いられる。この第２ホップ
フィールドが次元特定機能（０−２）を含む場合には、ホップは好ましい方向と
は反対の方向に定められた次元にとられ、好ましい方向は反転する。第２ホップ
フィールドが第２エスケープコードを含む場合には、パケットはファブリックル
ータの出口ポートに向って転送される。このコード化においては、パケットがフ
ァブリックノードに到達すると、そのパケットに対するローカル転送ベクタ入力
は好ましい方向フィールドおよび最も左のホップフィールドから算定される。次
にホップフィールドは、左に２ビットシフトされることにより、このフィールド
を破棄し、次のフィールドを次のルータに渡す。このシフト中に２ビットエスケ
ープコードは、最も右のホップフィールドにシフトされる。主として好ましい方
向に移行するパケットに対しては、このコード化により、よりコンパクトなファ
ブリックルートができる、何故ならばルートの各ホップをコード化するのに必要
なビット数は、３ビットではなく２ビットに過ぎぬからである。

【００５６】パケットをその入力リンクに接続されたモジュールからその出力リンクに接続
されたモジュールに、スイッチファブリック上を転送するために用いられるファ
ブリックルータは図９に図示されている。ルータは、７つの入力リンク５８およ
び７つの出力リンク６０を持つ。リンクの６つは、図７の３次元トーラスネット
ワーク内の隣接ノードに接続される。第７入力リンクは、転送エンジン５０から
のパケットを受け入れ、第７出力リンクはパケットをこのルータのラインインタ
ーフェースモジュールの出力バッファ５２に送る。各入力リンク５８は、入力バ
ッファ６２に付随し、また各出力リンク６０は出力レジスタ６４に組み合わされ
ている。入力バッファおよび出力レジスタは、７×７クロスバースイッチ６６に
より互いに接続されている。

【００５７】当業者には、本発明が異なったトポロジーおよび異なった次元数を持つファブ
リックネットワークの中で実施できることは理解できるであろう。また複数のリ
ンクをラインインターフェース間でやり取りすることもできる。別の実施形態に
おいて、２つの出力リンクは、ファブリックからラインインターフェースに設け
られ、出力リンク、従って出力レジスタの合計数を８にする。この場合に入力バ
ッファおよび出力レジスタは、７×８クロスバースイッチにより接続される。第
２出力リンクは、単一ノードが多くの方向から同時にトラフィックを受け入れる
時には、ファブリックネットワークからパケットを排出するための追加の帯域幅
を与える。

【００５８】出力ノードの各対に対して仮想ネットワークが備えられている。７つの入力バ
ッファ６２の各々は、マシンの中の各仮想ネットワークに対し、例えば１つのフ
リットのバッファを含む。１つの実施形態においては、６×１０×１０トーラス
ファブリックは６００ノードを備える。単一仮想ネットワークは、ネットワーク
の中の最大距離を持つ１対の出力ノードに割当てられる、何故ならばこれらの２
つのノードの間の最小数のルートはリンクを共有しないことを保証され、従って
互いに妨害しないことを保証されるからである。更に２つの仮想ネットワークが
ノードの各対に対して備えられ、異なるトラフィック等級をサービスする際に２
つの特性を可能にする。従ってルータ内には、６００の仮想ネットワークが存在
する：ノードの各３００対に対する２つの仮想ネットワーク。各入力バッファ６
２は、６００の３６バイトフリット（合計２１，６００バイト）に対するスペー
スを含む。

【００５９】改良策として、各入力バッファは、各仮想チャネルに対する２つのフリットに
対する格納場所を持つ。フリットのサイズは、単一仮想チャネルの最大デューテ
ィーファクタおよびパケットをフリットの全体数に要約することに伴う断片化損
失を決める。単一仮想チャネルにより用いることのできる単一ファブリックリン
ク上の最大帯域幅は、フリットサイズに仮想チャネルバッファ当たりのフリット
の数を剰じ、更にヘッダフリットがルータの中を伝播するのに要する時間で除し
た際に得られる値を上回ることはない。例えばフリットが３６バイトの時には、
バッファ当たりのフリットは１つであり、ヘッダフリットがルータを通って伝播
するのに要する時間は１０×１０ｎｓクロックであり、仮想チャネル当たりの最
大帯域幅は３６０Ｍバイト／秒である。リンク帯域幅が１２００Ｍバイト／秒の
場合には、単一仮想チャネルはリンク帯域幅のせいぜい３０％でしか使用できな
い。フリットバッファ容量が少なくともリンク帯域幅をルータ待ち時間（この場
合１２０バイト）により除して得られた値と同等である時には、単一仮想チャネ
ルはリンク容量のすべてを用いることができる。

【００６０】一般には、単一仮想チャネルが使用できるリンク帯域幅を最大にし、またより
大きいペイロードにわたりフリットプロセスのオーバーヘッドを償却するために
、フリットサイズをできる限り大きくしようとするものである。他方大きいフリ
ットは、小さいパケットをフリットサイズの倍数に要約する必要ある場合に、内
部の断片化を引き起こすことにより効率を低下させる。例えばフリットサイズが
６４バイトである時には、６５バイトパケットは１２８バイトに要約する必要が
あり、ほぼ５０％の断片化オーバーヘッドに招くことになる。

【００６１】断片化オーバーヘッドを生じることなくフリットサイズを大きくする利点を得
る１つの方法は、隣接フリットをグループ化して、それらが単一のダブルサイズ
フリットであるかのように取り扱うことである。奇数長さのメッセージの最後の
フリットを除くすべてに対して、すべてのフリットプロセスは、各フリット対毎
に１回行われるに過ぎず、フリットプロセスオーバーヘッドは半減する。最後の
奇数フリットは個別に扱われる。しかしこの様な単一奇数フリットは稀であり、
それ自体でのプロセスオーバーヘッドの増大は平均すれば大した値とはならない
。結局フリットを対にすることは、２つのフリットサイズ、即ち正規サイズとダ
ブルサイズを持つことに等しい。従って長いメッセージは、ダブルサイズフリッ
トのプロセスオーバーヘッドを下げられ、また短いメッセージは正規サイズフリ
ットのオーバーヘッドの断片化を低下する結果となる。好ましい実施形態におい
ては、フリットは長さが３６バイトであり、全長７２バイトの対にグループ化さ
れる。

【００６２】パケットのヘッドフリットがその仮想チャネルに到達した時に、出力ノード向
けのファブリックルータの仮想チャネルが自由状態にあれば、チャネルはそのパ
ケットに対しパケットの持続時間中、即ち虫が通過する迄割当てられる。しかし
複数のパケットは、複数の入力を通して同一仮想チャネルに対するルータで受け
取ることができる。仮想チャネルが既に割当てられているときには、新しいヘッ
ドフリットはそのフリットバッファの中で待たねばならない。チャネルが割当て
られていないときは、そのチャネルに対する２つのヘッドフリットが共に到達す
る以外は、公正な調整が行われねばならない。各仮想チャネルに割当てられたバ
ッファスペースが限られている時には、ファブリックからの出力ノードにおける
ブロックは、仮想ネットワーク上の各パケットの入力ラインインターフェースに
対するバッファプレッシャにより、直ぐに判る。この時、入力ラインインターフ
ェースがその後のパケットに対するルート変更のための適切な対策を講じること
ができる。各種の仮想ネットワークに対して異なる宛先が割当てられることによ
り、宛先間の干渉は回避される。トラフィックは分離されている。

【００６３】出力仮想チャネルが割当てられると、下流ノードでの入力バッファが、仮想チ
ャネルに対して利用可能なノードから信号を受け取る迄は、フリットはリンクを
越えて伝送されることはない。基本的なフロー・コントロール・プロセスが図９、１０Ａおよび１０Ｂに図示さ
れている。各サイクル毎に各入力バッファにおいて機能付与されたフリットの数
Ｍが、それらの要求された出力リンクへのアクセスに見合うように公正な調整プ
ロセス６８により選ばれる。選ばれたフリットは、それらの出力リンク要求を要
求された出力リンクに組合わされた第２アービタ７０に送る。このアービタは、
せいぜい一つのフリットを各出力リンクに送るために選ぶだけである。選ばれた
フリットは、次にクロスバースイッチを介して出力レジスタに送られ、次に出力
リンク上をスイッチファブリックの次のルータに送られる。この２ステップ調整
プロセスにおいて選ばれる迄フリットは入力バッファの中に在り、バックプレッ
シャが上流に作用する。

【００６４】各ラインインターフェースモジュールに於けるファブリックルータはクレジッ
トをベースとするフローコントロールを使用して、ファブリックネットワークを
通るフリットの流れを制御する。入力バッファ６２の各セットに組み合わされて
いるのは２つのＶビットベクタ：プレゼンスベクタＰおよびイネーブルベクタＥ
である。図１０Ａに図示されたＶは、仮想ネットワークの数であり、従ってバッ
ファの中の入力数である。プレゼンスベクタＰ〔Ｖ，ｉ〕のビットは、入力バッ
ファｉが仮想ネットワークＶからのフリットを含む時にセットされる。ビットＥ
〔Ｖ，ｉ〕は、このフリットが有効化されてその宛先リンクへのルートの次のホ
ップを取るときに、セットされる。

【００６５】図１０Ｂに図示されるように各出力レジスタに組み合わされているのは、受け
取りノードに於けるファブリックリンクの反対端上のプレゼンスベクタのコンプ
リメントをミラーリングするＶビットクレジットベクタＣである。即ちＣ〔Ｖ，
ｊ〕は、Ｐ〔Ｖ，ｉ〕がリンクの反対端の入力ポート上に存在しない場合に、所
定の出力ｊにセットされる。Ｃ〔Ｖ，ｊ〕がセットされている場合は、出力レジ
スタはリンクの反対端において空のバッファに対してクレジットを持つ。

【００６６】要求された出力リンクがその仮想ネットワークに対してクレジットを持つとき
は、入力バッファ内のフリットは有効化され、その次のホップを取る。例えば入
力バッファｉの仮想ネットワークＶのパケットが、そのルートの次のホップに対
して選択された出力リンクｊを選んだと仮定する。本発明は、これをＦ〔Ｖ，ｉ
〕＝ｊであらわす、但しＦは転送ベクタである。２つの条件が一致すると、この
入力バッファのフリットは有効化され、次のホップを取る。上記の条件とは、第
1 にはそれがＰ〔Ｖ，ｉ〕＝１で存在し、また第2 には次のホップにおいてバッ
ファスペースのクレジット、即ちＣ〔Ｖ，ｊ〕＝１が存在しはければならない。

【００６７】入力バッファの格納位置は、各仮想ネットワークに個別に割当てられるのに対
し、出力レジスタおよび関連する物理的チャネルが仮想ネットワークにより共有
される。クレジットをベースとするフローコントロール法は、ブロックまたは混
雑した仮想ネットワークが、物理的チャネルを無期限に占有することのないよう
に保障する、何故ならば有効化されたフリットのみが出力リンクに対して調整関
与することができる。更に仮想ネットワーク当たり１つ、または２つのフリット
のみが各入力バッファに格納されるために、確実なバックプレッシャがブロック
された出力ノードから入力ノードの転送エンジンに提供される。

【００６８】割当て調整とフローコントロールは、割当て問題ともいえる。この割当て問題には、
パケットへの仮想チャネルの割当て、各種の入力ノードからと共通出力ノードへ
向かう到着、およびファブリック経路内の同一の次のノードへ向けられたフリッ
トに対する物理的チャネル帯域幅の割当てを含む。

【００６９】マルチステージ・スイッチング・ファブリックにおいて、１つまたは複数のフ
リットから成るパケットは、その発信元からその宛先迄一つまたは複数のファブ
リックルータを通して進む。各ホップにおいて、メッセージのヘッドフリットが
入力仮想チャネル上のノードに到達する。パケットは、出力仮想チャネルを割当
てられる迄は、更に進むことはできない。好ましい実施形態のスイッチファブリ
ックにおいて、各パケットは、唯一つの仮想チャネル上をルーティングすること
ができるに過ぎない。パケットが到着する時に仮想チャネルが空いている時は、
チャネルはその到着パケットに割当てられる。しかし仮想チャネルがパケットの
到着時に占有されている時には、パケットは出力仮想チャネルが空く迄待たねば
ならない。チャネルが開放された時に、１つまたは複数のパケットが仮想チャネ
ル上で待機している場合は、調整が実行され、チャネルは待機パケットの一つに
割当てられる。

【００７０】パケットが仮想チャネルを取得するのに成功すると、パケットは物理的チャネ
ル帯域幅に対して対抗でき、そのフリットをそのルートの次のノードに進める。
パケットは、２つの条件が保持される時にのみ帯域幅に対して対抗することがで
きる。第１の条件は、少なくとも一つのパケットのフリットがノードに存在する
ことである。第２の条件は、次のノードに少なくとも１つのバッファスペースの
フリットが存在することである。これらの２つの条件が保持されない時には、転
送するフリットが存在しないか、または次のホップでフリットを入れるスペース
が存在しない。あるパケットに対して両条件が保持される時には、そのパケット
は有効化されてフリットを伝送する。しかしフリットを送ることのできる前にパ
ケットは２つの調整に合格しなければならない。すべての有効化されたパケット
の中で、ルートの次のノードへパケットのフリットが前進するために、パケット
には入力フリットバッファからの出力ポートおよび物理的出力チャネルの両者が
与えられなければならない。

【００７１】少数の仮想チャネルに対しては、割当て問題は、コンビネーションロジックを
用いて、図９、１０Ａおよび１０Ｂの基本的なケースに対して平行して解くこと
ができる。

【００７２】先ず仮想チャネル割当て問題を考えることとする。状態がＨのビットは、Ｋ入
力コントローラの各々上のＶ入力仮想チャネルの各々に関連している。従って入
力仮想チャネルが、出力仮想チャネルを割当てられていなかったヘッドフリット
を含む時には、ビットはセットされる。ビットアレーＨ〔１：Ｖ，１：Ｋ〕は、
仮想チャネルに対する要求を決める。状態Ｂのビットは、Ｋ出力コントローラの
各々に於けるＶ出力仮想チャネルの各々に関連している。出力仮想チャネルが使
用中の時には、このビットがセットされる。ビットアレーＢ〔１：Ｖ，１：Ｋ〕
は、仮想チャネルの割当て状態を決める。

【００７３】仮想チャネルＶを出力コントローラＫに割当てるために、最初にＫ入力コント
ローラの各々中の仮想チャネルを越えて調整が実行される必要があり、入力コン
トローラｉは、（１）Ｈ〔Ｖ，ｉ〕がセットされ、（２）チャネルの宛先、Ｆ〔
Ｖ，ｉ〕＝Ｋが成り立つ時にのみ対抗する形になる。Ｂ〔Ｖ，Ｋ〕＝０の時のみ
、調整に合格した入力は仮想チャネルが与えられる。

【００７４】この状態は、フリットに対する物理的チャネル帯域幅の割当ても同様である。
各入力仮想チャネルのバッファステータスは１つまたは複数のフリットが現在ノ
ードの中に在る時にセットされるプレゼンスビットＰにより示される。各出力仮
想チャネルは、予測しながらクレジットビットＣを保持する。クレジットビット
Ｃは１つまたは複数の空のバッファが次のノードで利用できる時にセットされる
。本発明では、割当てを連続的に（最適に近い形で）行うと仮定した；先ず入力
コントローラの出力ポートに対する調整を、次に出力チャネルに対する調整を行
った。各入力バッファは、Ｍ個の出力ポートを持つと仮定する。本発明では、次
に入力バッファｉに対し、先ず何れの仮想チャネルを有効とするかを決める。有
効化されたベクタ、Ｅ〔Ｖ，ｉ〕は、Ｅ〔Ｖ，ｉ〕＝¬Ｈ〔ｖ，ｉ〕∧Ｐ〔Ｖ，
ｉ〕∧Ｃ〔Ｖ．ｊ〕の式で計算される、但し¬は、否定ロジック、∧は、ＡＮＤ
ロジックオペレーションを、またｊは入力コントローラｉの仮想チャネルＶに関
するパケットの宛先である。従ってパケットは、それが仮想チャネルを待ってい
ない時、そのバッファの中に少なくとも一つのフリットが存在する時および次の
ホップにおいて利用することのできる格納の少なくとも一つのフリットが存在す
る時には、フリットを送るために有効化される。次に入力バッファの中の有効化
されたチャネルのすべては、入力バッファのＭ個の出力ポートに対して調整を行
う。これには、Ｖ−入力Ｍ−出力アービタが必要である。最後に各ローカル調整
の合格者が出力仮想チャネルに対して調整し、これにはＫ、ＭＫ−入力アービタ
が必要である。

【００７５】仮想チャネルが多数の場合は、割当てロジックの組合わせを実現するのに必要
なゲートの数は手のつけられぬ値となる。好ましいスイッチファブリックは、Ｖ
＝６００の仮想チャネルおよびＫ＝７ポートを持つ。従って、組合わせロジック
を持つこの割当て法を実行するには、ベクタＨおよびＢの４２００エレメント、
調整を確実にするための４２００３：８デコーダ、および合格者を選ぶための
４２００７入力アービタが必要である。状態、デコーダおよびアービタを保持
するためのフリップ−フロップの間に、約５０の２- 入力ゲートが、４２００仮
想チャネルの各々に対して、２００，０００以上、手のつけられぬ数のロジック
ゲートが必要である。

【００７６】好ましいルータに対しては、ＰおよびＣアレーもまたそれぞれ４２００エレメ
ントである。Ｃ−多重装置とアービタとの間では、各エレメントは約４０ゲート
を必要とする。従って帯域幅割当ては、追加の１６０，０００ロジックゲートを
必要とする。

【００７７】一方、８またはそれ以下の少ない数の仮想チャネルを持つルータに対しては全
く妥当性がある。組合わせ割当ては、Ｖ＝６００のルータに対しては明らかに実
行不能である。

【００７８】イベント駆動方式割当て割当てを行うために必要なロジックを大幅に減らすには、多数の仮想チャネル
に対して、大部分の仮想チャネルの状態が１つサイクルから次のサイクルに移る
時に変化しないように維持することで可能になる。所定のフリット期間中、所定
の入力コントローラのせいぜい一つの仮想チャネルにフリットの到着することが
あり、またせいぜいＭ個の仮想チャネルはフリットを発信させることがある。残
りのＶ−Ｍ−１仮想チャネルは変化しない。

【００７９】仮想チャネル状態の変化の少ない特性は、イベント駆動方式割当てロジックを
有利に使用するために利用することができる。このアプローチにより仮想チャネ
ル状態の更改の１コピー（または僅かなコピー）および割当てロジックが多数の
仮想チャネルにわたって多重化される。イベントの出現により特定される能動的
仮想チャネルのみがその状態を点検され、更改され調整に参画する。

【００８０】２つのタイプのイベント、到着イベントとクレジットイベントは、仮想チャネ
ル状態更改ロジックを作動させる。第３のタイプのイベントである転送イベント
は、物理的チャネル帯域幅に対する調整に何れの仮想チャネルが参画するかを決
める。フリットがノードに到達する都度到達イベントは、そのフリットに関連す
る仮想チャネルの状態をチェックするために待ち行列を作る。同様のチェックは
、仮想チャネルの下流バッファ状態が変化する度に待ち行列に加えられるクレジ
ットイベントに応じて行われる。仮想チャネルの状態を点検することは、チャネ
ルのパケットへの割当ておよび／または下流ノードへの転送のためのフリットの
スケジュール化をもたらす可能性がある。後者の場合、転送イベントが作り出さ
れ待ち行列に加えられる。転送イベントをペンディングしている仮想チャネルの
みが、入力バッファ出力ポートおよび物理的出力チャネルに対する調整に参画す
る。フリットが両者の調整に合格し、転送することになると該当の転送イベント
の待ち行列は解消する。

【００８１】イベント駆動方式チャネル割当てを実行するためのロジックは、図１１Ａおよ
び１１Ｂに示される。図１１Ａは、７つの入力コントローラの１つを示すのに対
し、図１１Ｂは７つの出力コントローラの１つを示す。各入力コントローラは、
示された３つの点で各出力コントローラに接続される。各入力コントローラは、
宛先テーブル７２、到着待ち行列７４、クレジット待ち行列７６およびフリット
バッファ６２を含む。仮想チャネル状態テーブル８０および転送待ち行列８２は
、各出力コントローラに含まれる。図は、仮想チャネル状態が各出力コントロー
ラに関連するイベントによりドライブされる機構を示す。状態を入力コントロー
ラに関連付けることも可能である。状態テーブルを出力コントローラに置くこと
は、仮想チャネル割当て（出力コントローラにおいて行わねばならない）および
帯域幅割当て（何れかの端で行うことができる）を同じメカニズムを用いて実行
できる長所を持つ。

【００８２】宛先テーブル、フリットバッファおよび仮想チャネル状態テーブルは、各仮想
チャネルに対する入口を持つのに対し、３つの待ち行列は僅かな数の入口を持つ
に過ぎない。各仮想チャネルに対し宛先テーブルは、若しあれば（即ちＦａ）入
力チャネル上の現在のパケットにより要求される出力ポートを記録し、フリット
バッファ６２はパケットの１つまたは複数のフリットに対する格納場所を提供し
、出力仮想チャネルの状態は状態テーブルに記録される。到着、クレジットおよ
び転送待ち行列は、生じたが未だ処理されていない各イベントに対する入力を含
む。

【００８３】入力側では二重ポートを持つ到着待ち行列、クレジット待ち行列、およびフリ
ットバッファもまた図１１Ａの破線により示された同期点として作用する。これ
らの３つの構造の左のポート、および点線の左のすべてのロジック（宛先テーブ
ルを含む）は、入力チャネルのクロック領域で動作する。これらの３つの構造の
右のポートおよび点線の右のすべてのロジックは、図１１Ｂを含めルータの内部
クロック領域内で動作する。

【００８４】別の実施形態においては、到着フリットはローカルロック領域に同期化された
後に、到着待ち行列、または宛先テーブルへアクセスする。

【００８５】図１１Ａおよび１１Ｂに示された割当てでは、仮想チャネルまたは物理的チャ
ネル・フリット・サイクルの割当ては、到着、移行およびクレジットの３イベン
トシーケンスを通して実行される。到着フリットは、その出力仮想チャネルに対
する状態テーブルへのアクセスに対する調整を行う。到着フリットが与えられる
と、テーブルは、到着フリットを明らかにするために更改され、チャネルがその
コントローラに割当てられ、クレジットが利用され、転送要求が待ち行列に加え
られてフリットを移動させる。転送要求が調整されて、入力フリットバッファへ
アクセスする。アクセスが得られるとフリットはバッファから取り外され、次の
ノードに送られる。フリットバッファから取り外される時には、フリットは、必
ずクレジットが待ち行列に加えられて前の先行ノードに転送される。クレジット
がノードに到着すると、仮想チャネル状態テーブルを更改し、ゼロクレジットで
待機しているフリットがあれば有効にする。最後に、ノードのテールフリットが
到着すると、仮想チャネルステートを更改してチャネルを空にする。

【００８６】フリットが入力コントローラに到着する都度、フリットの内容はフィルタバッ
ファ６２に格納される。同時に宛先テーブル７２はアクセスされ、必要な出力ポ
ート番号のタグを持つ到着イベントが７４において待ち行列に入る。宛先テーブ
ルは各パケットのヘッドフリットにより更改され、パケットの出力ポートを記録
し、次にパケットの残りのフリットにより問合せを受けて格納したポート番号を
再生する。到着イベントは、仮想チャネル識別子（１０ビット）、ヘッドビット
、および出力ポート識別子（３ビット）を含む。Ｋ入力コントロール到着待ち行
列の各々のヘッドの到着イベント（並びに入力ポート識別子（３ビット））は、
各出力コントローラのアービタ８４に配分される。各出力コントローラにおける
到着イベントは、出力ポートを必要とし、状態テーブル８０へのアクセスを調整
する。各サイクル毎に合格到着イベントは待ち行列を解消され、処理される。合
格しないイベントは、待ち行列に留まり、その後のサイクルでの状態テーブルへ
のアクセスのために再び競合を受ける。

【００８７】図１２に示されたように、出力Ｋ上の各出力仮想チャネルＶに対して、仮想チ
ャネルテーブル８０は下記のものを含む状態ベクタ、Ｓ〔Ｖ、Ｋ〕を維持する。１．チャネルＢの割当て状態、空き（０）、使用中（１）、またはテールペン
ディング（２）。２．このチャネルに割当てられた入力コントローラ（Ｂがセットされた場合）
、Ｉ、（３ビット）。３．このチャネル、で待機している入力コントローラのビットベクタ、Ｗ、（
７ビット）。４．クレジット（次のノード上の空のバッファ）の数、Ｃ、（１ビット）５．このノード上に在るフリットの数、Ｐ、（１ビット）。

【００８８】これらの最初の３つ（Ｂ、Ｉ、Ｗ）は、入力仮想チャネルへの出力仮想チャネ
ルの割当てに関連するのに対し、最後の２つ（Ｃ、Ｐ）は、物理的チャネル帯域
幅のフリットへの割当てに関連する。状態ベクタの各エレメント内のフリットの
数は、必要に応じて変えることができる。例えば各ノードにおいて更に多くのフ
リットバッファが利用できる時には、更に多くのビットがＣおよびＰフィールド
に割当てられる。状態の多くがこの場合に組み合わせロジックアプローチにおい
て状態ビットに直接対応する。Ｂ、ＣおよびＰビットは同じである。Ｗビットは
、必要な出力チャネルにより認定されたＨビットに対応する。

【００８９】待ちベクタのビットの数Ｗを増やすことで、調整の公正さを改善することがで
きる。ビットが唯一つの場合には、ランダム、またはラウンドロビン調整を行う
ことができる。各入力に３−ビットが格納されている時には、入力仮想チャネル
がその要求の到着した順番にサービスされる形の待ち行列調整を行うことができ
る。各仮想チャネルは、それが状態テーブルに到着した時に“番号を受け取る”
ことになり、この番号がＷベクタの入力に格納される。チャネルが空になると“
次の”番号の順となる。

【００９０】入力コントローラＩからの仮想チャネルＶに関連する到着イベントが出力Ｋに
対する状態テーブルに到着する時には、Ｓ〔Ｖ、Ｋ〕となり、下記のアクション
の一つをイベントのタイプ（ヘッド対ボディ）とチャネルの状態如何によって実
行する。１．フリットがヘッドであり、チャネルが空き状態Ｂ＝０であり、下流クレジ
ットがＣ≠０である場合は、（ａ）チャネルはＢ＝１、１＝ｉをセットすること
により入力に割当てられ、（ｂ）下流バッファはＣを決定することにより割当て
られ、（ｃ）転送要求は８２において（ｖ、ｉ、ｋ）に対して待ち行列に加えら
れる。２．フリットがヘッドであり、チャネルが空き状態で、下流クレジットが存在
しない場合には、チャネルは入力に割当てられ、現在カウントＰは増加する。下
流バッファは割当てられず、転送要求は待ち行列に入らない。３．フリットがヘッドであり、チャネルが使用中のＢ＝１の場合は、待ちベク
タＷのｉ番目ビットをセットすると仮想チャネル要求は待ち行列に加えられる。４．フリットがボディフリットで下流クレジットが存在する場合には、下流バ
ッファが割当てられ、転送要求は待ち行列に加えられる。５．フリットはボディフリットであり、下流クレジットの存在しない場合は、
現在カウントが増加する。６．フリットがテールであり、待機ヘッドのない時にクレジットが利用可能で
ある場合は、テールフリットは移行のために待ち行列に入り、チャネルは空きで
あるＢ＝０とマークされる。上記以外に、クレジットが利用できない場合は、チ
ャネルはテールペンディングＢ＝２とマークされ、クレジットが到着するとテー
ルを転送してチャネルを空にする。７．フリットがテールであり、クレジットが利用可能（Ｃ≠０）であり、待機
パケットがあれば（Ｗ≠０）、テールフリットは上のケース１および４のように
転送のために待ち行列に入る。待機中の入力ｊの１つを選ぶために調整が行われ
る。チャネルがその入力（Ｂ＝１、Ｉ＝ｊ）に割当てられ、また追加のクレジッ
トが利用可能であれば、この新しいヘッドフリットは転送のために待ち行列に加
えられる；その他の場合は“存在する”とマークされる。８．フリットがテールであり、クレジットが利用できない、（Ｃ＝０）、場合
は、現在カウントは増加し、チャネルの状態が“テールペンディング”、（Ｂ＝
２）とマークされる。

【００９１】仮想チャネル毎に唯一つのフリットバッファしか存在しなければ、ボディフリ
ットが到着する時には仮想チャネル割当て状態（Ｂ、ＩおよびＷ）をチェックす
る必要はない、何故ならばフリットは、チャネルがそのパケット（Ｂ＝Ｉ、Ｉ＝
ｉ）に既に割当てられている場合には到着しかできないからである。仮想チャネ
ル当り複数のフリットバッファがあれば、各ボディフリット到着の仮想チャネル
はチェックしなければならない。出力仮想チャネルを待機中のチャネルに対して
フリットが到着するとイベントを発生するが、これは無視する必要がある。また
出力チャネルが待機チャネルに割当てられる時には、待機仮想チャネル中にバッ
ファされたフリットの数を状態テーブル８０に通信する必要がある。これは、例
えばヘッドフリットが転送される時に、フリットバッファのカウントから、状態
テーブルのフリットカウントを更改することにより実行できる。なお、上のケー
ス１においては、本発明では状態テーブル上の１回のオペレーションで、仮想チ
ャネルの割当てとヘッドフリットに対するチャネル帯域幅の割当ての両方を実行
する。テールフリットは、この場合１対のアクションをもたらす：テールフリッ
トは、先ずボディフリットとして処理されて、帯域幅を割当てテールフリットを
移動させる。次にテールフリットとして処理されて、チャネルを空にし、ペンデ
ィング・ヘッド・フリットを移動する。転送待ち行列が２つの入力を同時に受け
入れることができるのでない限り、これは順番に行わねばならない、何故ならば
テールフリットの到着は、次の２つのフリットを転送のために待ち行列に加える
ことがあるからである：テールフリット自体および待ちパケットのヘッドフリッ
ト。

【００９２】転送待ち行列（Ｖ、ｉ、Ｋ）内の各入力は、そらぞれフリットバッファＶの内
容を入力コントローラから出力Ｋへ移動する要求である。要求が実行される前に
、先ず要求を８６において調整して、フリットバッファｉにアクセスする必要が
ある。各サイクルで、Ｋ出力コントローラの各々内の待ち行列のヘッドにある転
送要求は、それらの要求された入力バッファに提供され、ここで転送要求は調整
されてＭポートにアクセスする。合格した転送要求は待ち行列を解かれ、それら
のフリットは適切な出力マルチプレクサ８８に送られる。他の要求は転送待ち行
列にとどまる。ここではファブリックリンクに対する調整の必要はない、何故な
らば出力ファブリックリンクの各々に関連する出力コントローラは、サイクル当
りせいぜい一つの要求を行うに過ぎないからである。

【００９３】転送要求がフリットを出力に送る度に、クレジットが作成されて、入力フリッ
トバッファ内の空になったスペースを示す。クレジットは、クレジット待ち行列
７６に加えられ、先行ノードの出力コントローラに伝送される。仮想チャネルＶ
に対するクレジットがノードの出力コントローラＫに到着する時には、クレジッ
トは状態ベクタはＳ〔Ｖ、Ｋ〕を読み、何れかのフリットがクレジット上で待機
中か否かをチェックする。現在カウントの状態によって次のように進行する。１．待機フリットがない時Ｐ＝０は、クレジットカウントはＣ＝Ｃ＋１に増加
する。２．待機フリットがある時には、待機フリットの数がＰ＝Ｐ−１減らされ、、
第１待機フリットに対する転送要求は待ち行列に加えられる。３．テール・フリット・ペンディング（Ｂ＝２）がある時には、テールフリット
に対する転送要求は待ち行列に加えられる。チャネル上でヘッドフリットが待機
中でない時（Ｗ＝０）、チャネルは空き状態にセットされる（Ｂ＝０）。その他
の場合は、待機中のヘッドフリットがある時（Ｗ≠０）には、待機チャネルを選
ぶために調整が行われ、例えば入力コントローラｊからの場合には、チャネルは
このチャネル（Ｂ＝１、Ｉ＝ｊ）に割当てられ、ヘッドフリットは存在するとマ
ークされ（Ｐ＝１）、従って次に到着するクレジットがヘッドフリットを伝送す
る。

【００９４】上記のイベント駆動方式の実施形態において、出力コントローラはボディフリ
ットとテールフリットを別々に処理する。具体的には、出力コントローラは、上
述のテクニック４および５に従ってボディフリットを処理し、テクニック６、７
および８に従ってテールフリットを処理する。

【００９５】テクニック７で説明されたように、データパケットのヘッドフリットは、先行
のデータパケットのテールフリットに続くことができる。例えばデータパケット
は、仮想チャネルを占有することができるのに対し、１つまたは複数のデータパ
ケット（即ち１つまたは複数のヘッドフリット）は、その仮想チャネルを待つ。
占有するデータパケットのテールフリットに対する到着イベントが出力コントロ
ーラに到着する時には、出力コントローラはテールフリットを待ち行列に加えて
、下流の次のファブリックルータへ転送し、仮想チャネルを待機データパケット
（即ち待機ヘッドフリットの１つ）の１つに割当てる。従って出力コントローラ
は、ファブリックルータが転送のためにテールフリットを待ち行列に加えると同
時に、新しいデータパケットに対して仮想チャネルを与える。

【００９６】別のイベント駆動方式の実施形態においては、出力コントローラは、ボディフ
リットおよびテールフリットを同様に処理する。特に出力コントローラは、上記
のようにテクニック４および５に従ってボディおよびテールフリットの両者を処
理する。従ってテールフリットに対する到着イベントが出力コントローラに到着
する時およびクレジットを利用できる時には、出力コントローラは仮想チャネル
を空にすること、または仮想チャネルを待機データパケットに割当てることなし
にテールフリットを送信のために待ち行列に加える。プレゼント・ファブリック
・ルータから下流のファブリックルータがテールフリットを受け取り、処理し、
送り出す時には、下流ファブリックルータは正規のクレジットの代わりに特殊テ
ールクレジットを作成する。下流ファブリックルータは、このテールクレジット
をプレゼント・ファブリック・ルータの上流に送る。プレゼント・ファブリック
・ルータの出力コントローラは、テールクレジットを受け取る時には、出力コン
トローラは仮想チャネルのクレジットカウントを正規のクレジットに類似の方法
で増加し、仮想チャネルを空にする。この点で、仮想チャネルに対する待機デー
タパケットがある時には、出力コントローラは仮想チャネルを待ち、データパケ
ットの１つに割当てる調整手順を実行する。

【００９７】別のイベント駆動方式の実施形態によるファブリックルータは、ボディおよび
テールフリットを別々に処理するイベント駆動方式の実施形態のファブリックル
ータよりも速度は遅い。特に別の実施形態のファブリックルータが、テールフリ
ットを下流ルータに伝送するための転送要求を待ち行列に加えた後に、そのテー
ルフリットのデータパケットに割当てられた仮想チャネルは空き状態になる。仮
想チャネルは、ファブリックルータが下流ファブリックルータからのテールクレ
ジットを受け取る迄は、別のデータパケットにより使用されるために利用するこ
とはできない。

【００９８】しかし別のイベント駆動方式の実施形態では、幾つかの理由で非常に簡単なロ
ジックになる。第１にテールフリット到着イベントの取り扱いの複雑さを抑制す
ることにより、イベントの取り扱いが簡単となる。その代わりに作業は、テール
フリット到着とテールクレジットイベントとの間に拡がる。更にロジックは、単
一パケットのみが任意の時点で特定の仮想チャネルに在ることを確実にすること
により簡単となる。この事は、先行のパケットのテールがフリットバッファを−
テールクレジットで示されるように−クリアーする迄新しいパケットに仮想チャ
ネルを与えないことにより保証される。これとは逆に、ボディフリットとテール
フリットを別々に処理するイベント駆動方式の実施形態においては、次のパケッ
トのヘッドフリットはプレゼントパケットのテールフリットに続くことが可能で
あり、２つ以上のパケットは、単一仮想チャネルのフリットバッファの中で同時
に待ち行列に加えることができる。

【００９９】ここに説明された割当てのイベント駆動方式のそれぞれは、割当てに対して必
要なロジックのサイズと複雑さを２つの方法で減少させる。第１の方法では、仮
想チャネルに対する状態情報は、組み合わせロジックアプローチにより要求され
るフリップフロップ格納の密度の１０倍以上でＲＡＭアレーに格納することがで
きる。第２の方法では、選択および調整ロジックはファクタＶだけ減少する。仮
想チャネルバッファへのアクセスのための調整は、すべてのＶチャネル上ではな
く変化の起きた（フリット、またはクレジットの到着）チャネルに対してのみ行
われる。

【０１００】図１１Ａおよび１１Ｂのフリットバッファ、状態テーブルおよび宛先テーブル
のみがＶ入力を持つ必要がある。ビット、転送およびクレジット待ち行列の入力
数が或る程度の値であれば、システムの各種のコンポネントの間の速度上のミス
マッチを解消するのに充分である。待ち行列が一杯になれば待ち行列を満たすユ
ニットの動作は、入力が待ち行列から外される迄停止するだけでよい。イベント
の待ち行列の間のサイクルを切ることによりデッドロックを避けることができる
。例えば転送待ち行列が一杯になった時に、転送イベントを停止することにより
状態テーブルは、引続きクレジットおよび到着イベントを消費することができる
。失われたイベントは、状態テーブルを定期的に走査することにより再生するこ
とができる。これとは別に、Ｎ個の待ち行列の１つ、例えば転送待ち行列をすべ
ての起こり得る同時イベント、通常Ｖ×Ｎ（但しＮは各チャネルの入力バッファ
に於けるフリットの数である）を扱うのに充分な大きさにすることができる。

【０１０１】分散上述のように、各仮想ネットワークへの個別の仮想チャネルの割当ては、簡単
な解法であるが、これはコスト高につきその拡張性にも限界がある。各相互接続
ネットワークルータに必要なバッファの数は、システム内のノードの数と共に直
線的に増加する。５１２の仮想ネットワークにおいては、必要なフリットバッフ
ァの数は、ルータのスイッチファブリックを構成する集積回路上に経済的に設け
ることのできる物理的な限界を押し上げる。また仮想ネットワークに専用の各仮
想チャネルでは、仮想ネットワークが使用されない場合には、仮想チャネルは使
用されないままであり、ネットワーク全体での仮想チャネルの利用度が結果とし
て低下する。

【０１０２】更にネットワークの速度を高めるためには、各ノードに於ける各仮想チャネル
に対するフリットバッファの数を増やすことが望ましい。上記のデザインにおい
ては、各ノードに於ける各仮想チャネルに対して２つのフリットバッファが準備
されるが、確認の作業がフリットバッファ間のフリットの転送を遅らせる。ノー
ド毎の仮想チャネル当たりのフリットバッファの数を増やすことにより、確認は
、転送と平行して行うことが可能であり、システムの速度は高められる。

【０１０３】スイッチファブリックのバッファの数、従ってコストを引き下げるために、ま
た拡張性、速度および利用性を高めるために、仮想ネットワークは仮想チャネル
を共有することによりバッファ割当てをオーバーラップさせて構築することがで
きる。この方法で仮想ネットワークのすべてにサービスするのに必要な仮想チャ
ネルの数は大幅に減らすことができる。他方クロスバースイッチの性能に近くす
るためのシステムに対しては、１つの仮想ネットワーク中の混雑により共有され
る仮想チャネルが失われても、別の仮想ネットワークの伝送をブロックしないこ
とが重要である。従って各仮想ネットワークは、各ノードの複数の仮想チャネル
へのアクセスを持たねばならず、また任意の２つの仮想ネットワークＸおよびＹ
に対し仮想ネットワークＸは、仮想ネットワークＹがアクセスを持たない仮想チ
ャネルへのアクセスを持つことが重要である。

【０１０４】共有される仮想ネットワークシステムは、仮想ネットワークにまたがり仮想チ
ャネルの割当てを分散させる分散コードを用いて実施することができる。例えば
各ノード上でＮの仮想チャネルを共有するＭノードを持つネットワーク（従って
Ｍ仮想ネットワーク）を考えることとする。各仮想ネットワークｊは、分散コー
ド、Ｎ仮想チャネルの何れを物理的ネットワークを通して使用することを許され
るかを示すＮビットベクタを割当てられる。即ちベクタは、許される仮想チャネ
ルに対応する各ビット位置に１を含み、その他のすべての位置に０を含む。分散
コードは、仮想ネットワークの各対、ＸおよびＹに対してＸに対応するビットベ
クタは、１をＹに対応するビットベクタがゼロを含む少なくとも一つの位置に１
を含むように割当てられる。

【０１０５】パケットが分散ルーティングを用いるネットワークのノードに到達する時には
、パケットルートの次のホップに対して使用される仮想チャネルは、ビットベク
タと呼ばれる２つのセットを交叉させることにより決められる。分散コードベク
タＡは、パケットが使用することを許される仮想チャネルのセットを記述し（即
ちチャネル割当てベクタとして用いられる）、また使用中のベクタＢは、利用可
能なチャネルのセットを記述する。

【０１０６】図１５に図示されるように各仮想ネットワークは、Ｎ−ビット分散コードベク
タＡに関連する。この場合Ｎは、ネットワークの中の各物理的チャネル上に多重
化される仮想チャネルの数である。特定の仮想ネットワークＸに関連する分散コ
ードベクタＡはＣｘビットセットを持ち、その上をＸがルーティングすることを
許される仮想チャネルのサブセットを示す。２つの仮想ネットワーク、Ｘおよび
Ｙのための分散コードベクタは、一般にせいぜいＳビットを持つに過ぎない、但
しＳはＣｘおよびＣｙより小さい。

【０１０７】仮想ネットワークのすべてに対する分散コードベクタは、図１５に示されたテ
ーブル１０２に格納することができる。各仮想ネットワークが仮想チャネルの比
較的大きい部分上をルーティングすることを許される時には、テーブルは図に示
されたようにビットベクタとして最も効果的に直接コード化される。他方各仮想
ネットワークが全チャネルの小部分に限定されている時には、ベクタはチャネル
インデックスのリストとして圧縮された形で、より効果的に格納されている。例
えばベクタ００００１００００１００１０００は、インデックス３、６、１１の
リストと呼ぶことができる。この場合３、６および１１は、バイナリベクタの１
ビットの位置に該当し、最も右のビットは位置０に在る。ベクタをインデックス
として表すと、フルベクタの１６ビットでなく３つの４ビットインデックスの１
２ビットを必要とする。或いはテーブルは、完全に省略され、組み合わせロジッ
クを用い仮想ネットワークインデックス（この場合は宛先ノードのアドレス）か
らチャネル割当てベクタを誘導することができる。例えば仮想チャネルが後述の
ようにそのＸ座標に対して一つのチャネルを、そのＹ座標に対して一つのチャネ
ルおよびＺ座標に対して一つのチャネルを割当てられる時には、宛先アドレスの
座標値は直ちにデコードされて分散コードベクタを発生する。

【０１０８】任意の時点で、物理的チャネルに関連する仮想チャネルの状態は、１セットの
ベクタに記録される。使用中のベクタＢのビットは、対応する仮想チャネルがパ
ケットを持つために現在割当てられている時にはセットされ、使用中は、新しい
パケットを扱うために利用することはできない。

【０１０９】仮想ネットワークＸ上を伝送中のパケットが１つのノードに到着する時には、
出力ポートＰを選ぶためにルーティング決定が行われる。ＶＣ状態テーブルロジ
ック８０（図１１Ｂ）の中でその出力ポートに対応する形で出力ポートのビジー
ベクタの補数（Ｂｐ＊）が仮想ネットワークＸに対する分散コードベクタＡｘを
用い１０４においてＡＮＤされることにより候補仮想チャネルのベクタを求める
。Ｖ＝（Ｂｐ＊）∧Ａｘ（但し、（Ｂｐ＊）は、出力ポートのビジーベクタＢｐ
の補数を示す）。Ｖがゼロベクタ（すべてがゼロ）である時には、チャネルは利
用できず、要求はポートＰに対する仮想チャネルが利用できる様になる時には、
再吟味されるために待ち行列に入る。Ｖがゼロでなければアービタ１０６は、Ｖ
の非ゼロビットの一つを選び、対応するチャネルはパケットに割当てられ、Ｂｐ
の該当ビットがセットされてチャネルが使用中をマークする。仮想チャネルが割
当てられるとフリットの転送は上述のように行われる。

【０１１０】データ転送を遅らせる混雑の、他の仮想ネットワークと共有された仮想チャネ
ルを通して分散することを防ぐことの外に、転送を停止するチャネルに関連する
デッドロックを避けるために、分散コードの割当てに注意を払わねばならない。
１次元および２次元ネットワークおよび更に３次元トーラスネットワークに対す
るデッドロックのないことの保証された分散コードの割当てが続く。

【０１１１】図１３に示された１次元双方向リングネットワークを考えることとする。ルー
プの周りの各方向で、仮想ネットワーク（ＶＮ）のスパンは、仮想ネットワーク
により使用される物理的チャネルのセットである。ルーティングが最小の場合、
例えばノード２で発行されたメッセージは、ルート２−１−６−５−４には従わ
ない、何故ならば最小ルート２−３−４があり、従って各ＶＮのスパンは、サイ
クルのチャネルの半分をカバーするからである。例えば図１３において、時計方
向にシェードを施されたノード４にルーツを持つＶＮのスパンは、３本の太いチ
ャネルから成っている。他の方向のそのスパンは、反対方向に向かう３本の細い
チャネルから成っている。

【０１１２】５以上のラジックスＫ（図１３は６のラジックスを持つ）および各メッセージ
に対する単一仮想チャネルの制約のない割当てを持つネットワークにおいて、リ
ンク上にオーバーラップするスパンを持つ３つのＶＮの従属サイクルは、デッド
ロックをもたらすことがある。例えば該当ルート１−２−３−４、３−４−５−
６および５−６−１−２、をカバーし、すべては同時に発行される３つのメッセ
ージを考えることとする。第１メッセージの虫穴は、ノード１において始まり、
ノード２を通って延びるが、ノード３の入力バッファに保持される、何故ならば
ノード３のメッセージは既に共有された仮想チャネルを確保しているからである
。ノード３に始まる第２メッセージの完了迄第１メッセージに生じた遅延は、そ
れ自体容認することのできるものである。しかしノード３に始まるメッセージは
、第３メッセージの完了迄はノード５を通さず、第３メッセージは第１メッセー
ジによりブロックされる。この様に各メッセージの前進は、それ自体第１メッセ
ージにより禁止される、即ちデッドロックの生じるサイクルに於ける別のメッセ
ージの完了によって禁止される。

【０１１３】分散ルーティングでは、各宛先が仮想ネットワーク（ＶＮ）を定義し、そのネ
ットワークは、ＶＮの任意の対の間のＳ仮想チャネル（０＜Ｓ＜Ｃ）の最大オー
バーラップを持つＣ仮想チャネル（ＶＣ）を用いることを許可される。３ＦＶＮ
（Ｆ＝ｆｌｏｏｒ（Ｃ／Ｓ））はデッドロック構成を作り出すには必要である、
何故ならばパケットは、デッドロックのためにはＦの個別のブロックしたＶＮで
ブロックする必要があるからである。

【０１１４】一次元においてデッドロックを避けるための充分な条件は、各ＶＮに対しては
完全にオーバーラップするか、または全くオーバーラップしないＶＮとのみ上記
のＶＮが共有する、仮想チャネル（ＶＣ）を少なくとも１つの持つことである。
この結果は、ループの各座標値に対し、その座標値にルートを持つＶＮによって
のみ用いられるＶＣを割当てし、６つの仮想チャネルの図１３のネットワークへ
の割当てを要求することにより得ることができる。しかしルーティングが最小の
場合、ネットワークにおいて互いに対向する、例えばミラーノード１および４は
、同じ仮想チャネルを共有することができる、何故ならばこれらの２つのノード
への最小のルートは、物理的チャネルを共有しないからである。ループ内のすべ
てのリンク上を、１つのノードに向けられたメッセージは、ミラーモード方向に
向けられたメッセージの反対方向に進行する。従って図１３のループは、少なく
とも３つの仮想チャネルを必要とし、その各々はデッドロックを避けるためにミ
ラー仮想ネットワークによってのみ共有される。次に、追加仮想チャネルは、共
有されるかまたは共有されないループに割当てることができる。このアプローチ
により各ＶＮは、その共有されないＶＣを通して常に進行（１次元中で）するこ
とができる。

【０１１５】ＶＮへのＶＣの制約度の少ない割当てにより、デッドロックを避けることは可
能である、何故ならばサイクル中の一点において、デッドロックを破ることが必
要であるに過ぎないからである。

【０１１６】多次元ネットワークにおいては、すべての次元が個別にはデッドロックを生じ
ていなくてもデッドロックとなることがある。３次元に容易に拡張することので
きる２次元ケースを考えることとする。ＮＷ反転を行うパケットが、ＷＳ転換を
行うパケット上でブロックし、またＷＳ反転を行うパケットが、ＳＥ反転を行う
パケット上でブロックし、またＳＥ反転を行うパケットは、ＥＮ反転を行うパケ
ット上でブロックし、ＥＮ反転を行うパケットが、元のパケット上でブロックす
る時には、デッドロックの起きることがある。これによりサイクルが生じる（Ｎ
Ｗ、ＷＳ、ＳＥ、ＥＮ）、１９９２年５月の１９ｔｈＩｎｔｅｒｎａｔｉｏｎ
ａｌＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒ
ｅの会報Ｃ．Ｊ．ＧｌａｓｓおよびＬ．Ｍ．Ｎｉ，“ＴｈｅＴｕｒｎＭｏｄ
ｅｌｆｏｒＡｄａｐｔｉｖｅＲｏｕｔｉｎｇ”の２７８−２８７頁に示さ
れるようにサイクルは破ることができ、従ってサイクルの中の転換の一つを除外
することにより、デッドロックを回避することができる。例えば、サイクルの北
のエッジを完全に除去することによりサイクルは破れるが、ＥＮ反転のみが除去
されるだけで充分である。反転ＷＮ、または直進ＮＮはデッドロックの危険なし
に許される。

【０１１７】ＸおよびＹ次元の各々が上記のように仮想チャネルを割当てることにより、デ
ッドロックなしにできる２次元アレーを仮定する。例えば８×８アレーにおいて
、４＋４＝８仮想チャネルが適切な仮想ネットワークに割当てられる。割当ては
、宛先アドレス（ｍｏｄＫ／２）の座標値により限定され、Ｋはそれぞれの次
元に於けるノードの数である。（ｍｏｄＫ／２）ファクタは、ＶＣを共有する
ミラーノードを明確にするものである。最小ルーティングが用いられる時には、
各ＶＮはそれ自体デッドロックの危険はない、何故ならば宛先ノードに関する各
象限において、２方向のみ、従って８つの考えられる反転の内の２つのみが用い
られる。これは図１４に図示されている。例えば宛先ノードの領域ＮＥにおいて
は、パケットはＳおよびＷ方向にのみ進行し、従ってＳＷとＷＳ反転のみが許さ
れる。これは、時計方向サイクルからの１反転であり、反時計方向サイクルから
の１反転である。しかしＶＮがＶＣを共有する時には、１つのＶＮから失われた
反転が同じＶＣを共有する他のＶＮに出現することがあるから、デッドロックは
起こり得る。

【０１１８】上述のようにデッドロックを招くサイクルは、サイクルの中での反転を禁じる
ことにより除去することができる。時計方向および反時計方向の両者のサイクル
を破るには、各方向の反転が除去されねばならない。更に或る仮想チャネルにお
いて除去された反転が、サイクルを完成するために別の仮想チャネルにおいて同
じ反転が用いられることのないことが保証されねばならない。ＶＮに於ける或る
象限の両反転の禁止が、その象限から宛先に達することを妨げるために、禁止さ
れた反転は異なった象限からのものでなければならない。限定的であるが、その
象限の１回の反転しかできない場合にも、宛先は何れの象限からでも到達するこ
とができる。

【０１１９】従って、次元間のデッドロックを防止するための充分な方法は、（１）次元毎
に個別にデッドロックを防止すること、および（２）（ａ）各ＶＮが異なった象
限において時計方向および反時計方向の各々において４つの反転の一つを禁止し
、および（ｂ）各ＶＮが同じ反転を禁止するＶＮとの間でのみ共有される少なく
とも一つのＶＣを持つことを要求することである。これは、全く限定的である、
何故ならばこれは次元の順でルーティングすることを宛先ノードの周りの４つの
象限の２つに強制するからである。例えばＥＮ反転が除外された時には、ＳＷか
らの宛先へのメッセージは、先ずＥに、次はＮにルーティングしなければならな
くなる、何故ならばＥＮ反転のみが利用できるに過ぎなくなるからである。

【０１２０】ルーティングをよりフレキシブルにするがＶＣに関してはコスト高につく方策
は、２つのＶＮを各宛先ノードに関連付け、その各々は単一象限に対するすべて
の反転を禁止し、象限は２つのＶＮに対して相違するものである。例えばＮＷを
除くすべての象限に対する一つのＶＮは、ＳＥおよびＥＳ反転を禁止し、ＳＥを
除くすべての象限に対する一つのＶＮは、ＮＷおよびＷＮ反転を禁止するのであ
る。各クラスからのＶＮは、この時には各次元毎にデッドロックから解放されて
いる限り、制約なしにＶＣを共有することができる。残りに対する例の中では、
対角的象限が選ばれるが、任意の２つの象限は２つのＶＮに対して禁止されるこ
とがある。

【０１２１】２つの次元にＶＣを割当てるための１つの有用な方法は、下記の通りである。１．各宛先には、２つの仮想ネットワークを割当てられ、一つはＳＥおよびＥ
Ｓ反転を禁止し、また一つはＮＷおよびＷＮ反転を禁止する。２．各宛先には、ＶＮ宛先のＸ−座標値に関連するＶＣを割当てられ（ｍｏｄ
Ｋｘ／２）、ＫｘはＸ−次元のノードの数である。このＶＣの割当ては、オー
バーラップしないこと、即ちＸ−次元での単一次元デッドロックのないことを保
証する。３．各ＶＮには、宛先のＹ−座標軸に関連するＶＣが割当てられる（ｍｏｄ
Ｋｙ／２）。これによりＹ−次元における単一デッドロックの解消は保証される
。４．任意の追加のＶＣ対は、Ｓ以上ではないＶＣが任意の２つの宛先の間で共
有されることの制約を条件として随意割当てられる。５．ルーティングテーブルは、宛先のＮＷ象限に於けるノードがＮＷ／ＷＮを禁
止するＶＮに限定され、ＳＥ象限に於けるノードは、他のＶＮに限定されるよう
に構成されている。ＮＥおよびＳＷ象限に於けるノードは、何れのＶＮをも使用
することができる。

【０１２２】１例として、６４ノード（８×８）の２次元ネットワークに対しこの割当ては
最低８ＶＣ対（合計１６ＶＣ）を必要とする。

【０１２３】利用の可能なＶＣの数は、利用可能なバッファスペースおよび各ノードにおけ
るＶＣ当りのフリットバッファの数によって決まる。システムの速度を高め、ノ
ード当りのフリットバッファを増やすことにより、利用可能な仮想チャネルを減
少させる。上のステップ２および３において特定された必要な最低ＶＣを越える
と、任意の利用可能な仮想チャネルは特定のＶＮに割当てることが可能であり、
従ってＳおよび一つのＶＮの混雑の別のＶＮへの影響を制約し、またはネットワ
ーク上のＶＣの利用度を改善するために仮想チャネルは共有することができる。
例えば２つのＶＣが、上記のステップ２および３における各ＶＮに割当てられ、
これらのステップの後、２０チャネルが割当てのために利用可能な状態であると
仮定する。２０全部は、Ｃ＝２２、Ｓ＝２１に対しすべてのＶＮにより共有され
、または２０の各々は、Ｃ＝３およびＳ＝１に対し単一ＶＮの専用として割当て
ることができる。

【０１２４】共有を増やすことによりＳの値は増える。Ｃ／Ｓの比は、如何に多くのＶＮが
混雑のために他のＶＮに影響を及ぼすことなくそれら自体ブロックされるかの指
標である。上記の比が大きくなるにつれて、１つＶＮに於ける混雑の他のＶＮへ
の影響は少なくなる。

【０１２５】このアプローチを３次元に拡大するために、本発明は３次元次元間サイクルを
避けるために追加の反転を除去する必要がある。しかし本発明は、これを上記の
ように宛先当り２つのＶＮを用いるだけで果たすことができる。１つのＶＮは、
ＮＷＶ（北、西、上）８分円（ＳＥ、ＥＳ、ＳＤ、ＤＳ、ＥＤ、ＤＥ）に関連す
る反転を除外するのに対し、他のＶＮはＳＥＤ（南、東、下）８分円に関連する
反転を除外する。

【０１２６】８×８×１６として構成される、例えば１０２４−ノードネットワークは、ネ
ットワークの対称ミラー対の平面のそれぞれに対し、１つのＶＣ対を割当てるた
めに最低４＋４＋８＝16ＶＣ対（３２ＶＣ）を必要とする。

【０１２７】単一宛先が過剰なトラフィック量を受け取る時、その２つのＶＮに関連するす
べてのＶＣは急速に飽和し、発信元に逆流する。一見するとこれらのＶＣは、ネ
ットワークから除去されたように見えるが、実際には飽和は宛先から更にノード
に影響するものではない。上に述べたチャネル割当てにおいて、各宛先ノードが
、それぞれ３つのＶＣ（次元当り一つ）を備えた２つのＶＮを持つ、飽和した宛
先と共に正確に一つの座標値を共有するノードへのＶＮは、それに向かってルー
ティングすべき４つのＶＣを残す。２つの座標値を共有するノードに対するＶＮ
は、２つのＶＣを残す。

【０１２８】偏向ルーティング偏向ルーティングは、ほぼブロッキングを起こすことのない各種のファブリッ
ク出力に向かうトラフィックを形成するためのもう一つの方法である。偏向ルー
ティングを用いる時、パケットのすべては制約なしに仮想チャネルを共有するこ
とができる。しかし、パケットがブロックすると、必要な仮想チャネルが利用可
能となることを待つのではなく、存在するファブリックルータのラインインター
フェースのパケットメモリにミスルート、または“偏向”するのである。後にフ
ァブリックへの再注入が行われる。ファブリック出力Ａに向かうパケットは、ブ
ロックを許されないから、ファブリック出力Ｂに向かうパケットを無限に遅らせ
ることはない。

【０１２９】偏向ルーティングは、仮想ネットワークを用いることには及ばないが幾つかの
性質を持ち、異なった出力に向かうパケットの間を隔離する。先ず偏向ルーティ
ングは、バックプレッシャをもたらさない。出力が混雑すると出力に向かうパケ
ットは、簡単に偏向し、混雑している出力にパケットを送るファブリック入力は
、問題には気付かない。第２にブロッキングは起きないが、異なった出力に向か
うパケット間には著しい干渉が生じることである。出力Ａが混雑すると、Ａに隣
接するリンクは過度に利用され、これらのリンクの１つをトラバースする出力Ｂ
に向かうパケットは、高い確率で偏向することになる。第３に偏向ルーティング
を用いることにより、パケットメモリの帯域幅の必要性が大幅に増える、何故な
らばこのメモリは、偏向したパケットおよび正規の入出力の外にその再注入を取
り扱うための十分な帯域幅を持たねばならないからである。最後に、偏向ルーテ
ィングは、各ラインインターフェース上のパケットメモリの有限サイズにより限
定されている。ＩＰルータでしばしば起きる大きな混雑の下では、パケットメモ
リは偏向したパケットにより、完全に満たすことができる。これが起きた時には
、パケットは、干渉およびデッドロックの危険を避けるためにドロップする必要
がある。

【０１３０】本発明は、その好ましい実施形態に基づいて図示説明されたが、当業者には、
形態および細部に於ける各種の変更を、請求項により限定された本発明の精神と
範囲から逸脱することなしに行うことができることが理解される。当業者は、日
常の実験以上の手段を用いることなく、この中に具体的に記載された本発明の特
定の実施形態の均等物の多くのものを認識し、または確認することができる。こ
のような均等物は、請求の範囲の中に包含されるものとする。

【０１３１】例えば図１１Ａ、１１Ｂおよび１２に関連して説明されたイベント駆動方式の
割当てロジックは、図８に示されたようなインターネット・スイッチ・ファブリ
ック・ルータに使用するのに適している。イベント駆動方式の割当てロジックは
、またマルチコンピュータルータに用いるのにも適していることが理解される。
例えば図８によれば、イベント駆動方式の割当てロジックと組み合わせられたラ
インインターフェース回路４８としてマルチコンピュータインターフェースを用
いることは、図４に示されたようなマルチコンピュータシステムのためのマルチ
コンピュータルータを形成する。

【０１３２】更にイベント駆動方式の割当てロジックは、物理的出力チャネルに物理的入力
チャネルを直接割当てるために適していることが理解される。好ましくは割当て
ロジックの単一コピーが使用される。ロジックは、イベントの出現により作動さ
れる。

【０１３３】更に仮想チャネル状態テーブル８０に対する状態ベクタの一部（図１２を参照
）は、使用または待機情報などの特定の情報を示すための個別のビットを含むと
説明されていることが理解されるべきである。情報をコード化するスカラー・ス
テート・フィールドなどのビットの代わりに他の構造を用いることもできる。

【０１３４】図１１Ａ、１１Ｂおよび１２に記載のイベント駆動方式の割当てロジックに関
連して各物理的入力チャネルは、多数の入力仮想チャネルにより共有され、また
各物理的出力チャネルは多数の出力仮想チャネルにより共有されることを理解す
べきである。割当てロジックは、各物理的チャネルに対する単一仮想チャネルを
提供するのに適している。このようなケースにおいて、各物理的入力チャネルは
、１つの入力仮想チャネルによってのみ使用され、また各物理的出力チャネルは
、１つの出力仮想チャネルによってのみ使用される。従って状態テーブルロジッ
クは、物理的入力チャネルを物理的出力チャネルに付随させる割当てを本質的に
作り出す。

【図面の簡単な説明】

本発明の上記および他の目的、特徴および利点は、添付の図面に図示された本
発明の好ましい実施形態の下記の具体的な説明から明らかとなる。上記の図面に
おいては、同じ部品に対しては一貫して同じ記号が用いられている。図面は、必
ずしも正しい縮尺ではなく、本発明の原理を図示する上で誇張が用いられている
。

【図１】図１は、本発明を適用することのできるインターネットルータの構成を示す。

【図２】図２は、公知のバスをベースとするインターネットルータである。

【図３】図３は、公知のクロスバースイッチインターネットルータである。

【図４】図４は、直接型マルチプロセッサネットワークに以前に用いられている２次元
トーラスアレーを示す。

【図５】図５は、間接型ネットワークを示す。

【図６】図６は、ネットワークのツリーの飽和を示す。

【図７】図７は、本発明を具現する３次元ファブリックを図示する。

【図８】図８は、図７のアレーの中のノードのラインインターフェースモジュールを示
す。

【図９】図９は、図７および図８の実施形態に用られているファブリックルータを図示
する。

【図１０】図１０Ａおよび１０Ｂは、図９のルータに用いられているバッファ、レジスタ
およびコントロールベクタを図示する。

【図１１】図１１Ａおよび１１Ｂは、図９のルータの入力および出力コントロールのそれ
ぞれに備えられた別の割当てコントロールロジックを図示する。

【図１２】図１２は、図９のルータに用いられている仮想チャネル状態テーブルを図示す
る。

【図１３】図１３は、分散ルーティングを実証するために用いられたループを図示する。

【図１４】図１４は、宛先の周りの各象限からの宛先に到達するのに必要な反転を図示す
る。

【図１５】図１５は、本発明を具現する仮想チャネル選択回路を図示する。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (72)発明者カーベイ・フィリップ・ピーアメリカ合衆国，マサチューセッツ州 01730，ベッドフォード，ダニエルズドライブ７ (72)発明者デンニソン・ラリー・アールアメリカ合衆国，マサチューセッツ州 02062，ノーウッド，ナハタンストリート 505 (72)発明者キング・ピー・アレンアメリカ合衆国，マサチューセッツ州 02192，ニードハム，ギブソンストリート 30 Ｆターム(参考） 5K030 HA08 HC01 HD03 HD05 HD06 KA13 LB05 【要約の続き】また出力ファブリックリンクに対して仮想チャネルを割当てる。データパケットは、複数バーチャルチャネルへのアクセスを共有し、アクセスは分散コードベクタにより定義される。仮想チャネルは、経路の次のファブリックルータにおける特定の入力バッファが利用可能であることの表示を確認した上で、出力ファブリックリンクに対し可能な割当てを付与する。

Claims

【特許請求の範囲】

【請求項１】インターネットリンクからデータパケットを受け取り、このデー
タパケットをルーティングするためにデータパケットのヘッダ情報を分析し、こ
のデータパケットをインターネットリンク上に転送する、複数のインターネット
リンクに結合しているインターネットルータであって、ファブリックルータにより結合されたファブリックリンクのファブリックを備
え、各ファブリックルータに対する前記ファブリックリンクの数はインターネッ
トルータによりサービスされるインターネットリンクの数よりも大幅に少なく、
前記ファブリックリンクおよびファブリックルータが前記ファブリックを通って
１つまたは複数のホップを介してインターネットリンクの間の通信を提供するイ
ンターネットルータ。
【請求項２】請求項１において、各インターネットリンクに対するラインイン
ターフェースが、前記インターネットリンクから受け取るデータパケット中のヘ
ッダ情報を分析して、インターネット・ルーティング・プロトコルを通して出力
インターネットリンクを特定し、ファブリック・ルーティング・プロトコルを通して、ファブリックを通って前
記特定された出力インターネットリンク迄のルーティング経路を決定するインタ
ーネットルータ。
【請求項３】請求項２において、前記リンクインターフェースが、前記ルーテ
ィング経路の中の各連続リンクのリンク定義をヘッダ中に含むことにより、前記
ファブリックを通る前記ルーティング経路を定義し、前記ルーティング経路に沿った各ファブリックルータが、前記パケットの連続
セグメントを転送するためにヘッダから関連リンク定義を格納するインターネッ
トルータ。
【請求項４】請求項１において、ファブリックリンク上のホップの間で、パケ
ットのセグメントがファブリックルータの中で宛先インターネットリンクに対応
する仮想チャネルに割当てられた格納位置において格納されるインターネットル
ータ。
【請求項５】請求項１において、前記インターネットルータによりサービスさ
れるインターネットリンクの数は、少なくとも各ファブリックルータへのファブ
リックリンクの数よりも大きいオーダであり、さらにファブリックルータ当りの仮想チャネルの数が、ファブリックルータへ
のリンクの数よりも十分に大きいインターネットルータ。
【請求項６】請求項１において、各ファブリックルータは、ファブリックリン
クを共有する仮想チャネルを定義する複数のバッファを備え、前記仮想チャネルとリンクは、インターネットルータ入力と出力との間の仮想
ネットワークを形成し、その中で１つの仮想ネットワーク内の混雑が他の仮想ネ
ットワークを通って流れるパケットをブロッキングしないインターネットルータ
。
【請求項７】請求項１において、調整を各ファブリックルータにおいて実行し
て、前記ファブリックルータからの出力に対する仮想チャネルにパケットを割当
て、さらに仮想チャネルを前記ファブリックルータからの出力ファブリックリン
クに割当てるインターネットルータ。
【請求項８】請求項１において、各ファブリックルータがクロスバースイッチ
を備えているインターネットルータ。
【請求項９】請求項８において、各ファブリックルータが、それぞれのファブ
リックルータおよびインターネットリンクからデータパケットを受け取る入力バ
ッファを備えたインターネットルータ。
【請求項１０】請求項９において、各ファブリックルータが、前記ファブリッ
クリンクの反対側の端において利用できる何らかの表示を入力バッファが受け取
った時に、出力ファブリックリンクに沿ってデータを転送するための出力コント
ローラを備えたインターネットルータ。
【請求項１１】請求項１において、前記ファブリックが直接ネットワークであ
るインターネットルータ。
【請求項１２】請求項１において、前記ファブリックが３次元トーラスネット
ワークであるインターネットルータ。
【請求項１３】インターネットリンク間でデータパケットをルーティングする
方法であって、データパケットを出力インターネットリンクにルーティングするためにデータ
パケット中のヘッダ情報を分析し、前記データパケットを、ファブリックルータのマルチホップ・ファブリック・
ネットワークを通して前記出力インターネットリンクにルーティングするインタ
ーネットリンク間のルーティング方法。
【請求項１４】請求項１３において、更に、ラインインターフェースにおいて
データパケット中のヘッダ情報を解析して、インターネットルーティングプロト
コルを通して出力インターネットリンクを特定し、ファブリックネットワークを通し、前記特定された出力インターネットリンク
へのルーティング経路をファブリックルーティングプロトコルにより決定するイ
ンターネットリンク間のルーティング方法。
【請求項１５】請求項１４において、前記リンクインタフェースがヘッダ中に
前記ルーティング経路の各連続リンクのリンク定義を含むことにより、前記ファ
ブリックを通る前記ルーチング経路を定義し、前記ルーティング経路に沿った各ファブリックルータが、前記パケットの連続
セグメントを転送するために前記ヘッダからのリンク定義を格納するインターネ
ットリンク間のルーティング方法。
【請求項１６】請求項１３において、ファブリックリンク上のホップの間で、
セグメントが宛先インターネットリンクに対応する仮想チャネルに割当てられた
格納位置においてファブリックルータに格納されるインターネットリンク間のル
ーティング方法。
【請求項１７】請求項１３において、各ファブリックルータは、ファブリック
リンクを共有する仮想チャネルを定義する複数のバッファを有し、前記仮想チャネルとリンクが、インターネットルータ入力および出力の間で仮
想ネットワークを形成し、そこでは１つのネットワーク内の混雑が他の仮想ネッ
トワークを流れるパケットをブロックしないインターネットリンク間のルーティ
ング方法。
【請求項１８】請求項１３おいて、調整を各ファブリックルータにおいて実行
し、前記ファブリックからの出力に対する仮想チャネルにパケットを割当て、さ
らに前記ファブリックルータからの出力ファブリックリンクに仮想チャネルを割
当てるインターネットリンク間のルーティング方法。
【請求項１９】請求項１３において、前記データパケットが、クロスバースイ
ッチを通してファブリックリンクの間をルーティングされるインターネットリン
ク間のルーティング方法。
【請求項２０】請求項１３において、前記データパケットが、３次元トーラス
直接ネットワークを通してインターネットリンク間をルーティングされるインタ
ーネットリンク間のルーティング方法。
【請求項２１】ファブリックリンクにより接続された複数のファブリックルー
タを備えたネットワークであって、各ファブリックルータは、ファブリックリンクを共有する仮想チャネルを定義
する複数のバッファを備え、前記仮想チャネルとリンクがネットワークの入力と出力との間で仮想ネットワ
ークを形成し、そこでは各仮想ネットワークが１セットのネットワーク出力と関
連付けられ、その中では、１つの仮想ネットワークの混雑が他の仮想ネットワー
クを通って流れるパケットをブロックしないネットワーク。
【請求項２２】請求項２１において、ファブリックリンク上のホップの間で、
セグメントがネットワーク出力に対応する仮想チャネルに割当てられた格納位置
においてファブリックルータに格納されるネットワーク。
【請求項２３】データパケットをルーティングするルーターであって、前記データパケットの少なくとも一部を受け取る物理的入力チャネルと、物理的出力チャネルと、前記物理的入力および出力チャネルに結合されて、前記データパケットの一部
を格納するデータバッファと、前記物理的入力および出力チャネルならびに前記データバッファに結合されて
、待ち行列イベントに応じたチャネル割当てを作成し、作成されたチャネル割当
てに従って、前記データパケットの一部を前記物理的出力チャネルを通して出力
するコントロール回路とを備えたルータ。
【請求項２４】請求項２３において、前記コントロール回路が、待ち行列イベ
ントに応じて仮想チャネルを前記データパケットに割当てるルータ。
【請求項２５】請求項２４において、前記コントロール回路が複数の仮想チャ
ネルにより共有され、イベントに応じて特定の仮想チャネルを扱うように作動さ
れるルータ。
【請求項２６】請求項１において、各出力コントローラが更に、出力チャネルの状態を維持する状態テーブルと、前記状態テーブルが待ち行列イベントに応じてアクセスされる時に、トランス
ポート要求を待ち行列に加え、待ち行列のトランスポート要求にしたがい物理的
出力チャネルを通してデータパケットを転送するトランスポート回路とを有する
ルータ。
【請求項２７】請求項１において、各出力コントローラが下流ルータからクレ
ジットイベントを受け取り、その受け取られたクレジットイベントに応じて、対応する物理的出力チャネル
上にデータパケットの一部を転送するために転送要求を待ち行列に加えるルータ
。
【請求項２８】請求項２３において、前記コントロール回路が、待ち行列イベ
ントに応じて物理的チャネル割当てを作り出すルータ。
【請求項２９】請求項２８において、前記コントロール回路が複数の仮想チャ
ネルにより共有され、イベントに応じて特定の仮想チャネルを扱うよう動作する
ルータ。
【請求項３０】請求項２３において、更に、マルチコンピュータシステムのためのマルチコンピュータルータを形成するよ
うに、物理的入力チャネルおよび物理的出力チャネルに結合されたマルチコンピ
ュータインターフェースを備えたルータ。
【請求項３１】請求項２３において、更に、インターネットスイッチファブリックルータを形成するように、物理的入力チ
ャネルと物理的出力チャネルに結合されたラインインターフェースを備えたルー
タ。
【請求項３２】請求項２３において、前記コントロール回路が、前記物理的出
力チャネルを入力チャネルに関連付けた状態テーブル含むルータ。
【請求項３３】物理的入力チャネルから物理的出力チャネルにデータパケット
をルーティングする方法であって、前記物理的入力チャネル上で前記データパケットの少なくとも一部を受け取り
、待ち行列イベントに応じてチャネル割当てを作成し、前記作成されたチャネル割当てに従って前記物理的出力チャネルを通してデー
タパケットの一部を出力するルーティング方法。
【請求項３４】請求項３３の方法において、前記チャネル割当てを作成する工
程が、仮想チャネルを前記データパケットに割当てる仮想チャネル割当てを作成し、物理的出力チャネルを前記仮想チャネルに割当てる物理的チャネル割当てを作
成し、その割当ての各々は待ち行列到着およびクレジットイベントに応じて作成
され、前記データパケットの一部は前記作成された仮想および物理的チャネル割
当てに従って前記物理的出力チャネル上に転送されるルーティング方法。
【請求項３５】請求項３４の方法において、前記物理的チャネル割当てを作成
する工程が転送待ち行列に転送要求を加え、この転送要求が前記データパケットの一部を
前記物理的出力チャネルを通して転送するよう要求するものであるルーティング
方法。
【請求項３６】データパケットをルーティングするルータであって、前記データパケットの少なくとも一部を受け取る物理的入力チャネルと、物理的出力チャネルと、前記物理的入力および出力チャネルに結合されて、前記データパケットの一部
を格納するデータバッファと、前記物理的入力および出力チャネルならびに前記データバッファに結合されて
、物理的チャネル上に多重化される仮想チャネルに対するデータパケットの割当
てを作成し、第１データパケットがサイズＣ₁の仮想チャネルの第１セットへのアクセスを持ち、第２データパケットがサイズＣ₂の仮想チャネルの第２セットへのアクセスを持ち、さらに、０＜Ｓ＜Ｃ₁およびＳ＜Ｃ₂であるサイズＳの第１
セットおよび第２セットの交点が存在するコントロール回路とを備えたルータ。
【請求項３７】請求項３６において、前記第１パケットは、第１仮想ネットワ
ーク上を進み、また前記第２パケットは、第２仮想ネットワーク上を進むルータ
。
【請求項３８】請求項３７において、前記第１仮想ネットワーク上にルーティ
ングされたすべてのパケットが、前記仮想チャネルの第１セットを共有し、前記
第２仮想ネットワーク上にルーティングされたすべてのパケットが、仮想チャネ
ルの第２セットを共有するルータ。
【請求項３９】請求項３７において、各仮想ネットワークが特定のセットの宛
先ノードに向けられたパケットを運ぶルータ。
【請求項４０】請求項３９において、各仮想ネットワークにおいて次元間のデ
ッドロックを防止するために反転が許されないルータ。
【請求項４１】請求項３６において、前記コントロール回路が物理的出力チャ
ネルに対応する出力コントローラを有し、各出力コントローラが、出力仮想チャネルの状態を記録してデータパケットの
一部を保持する入力仮想チャネルを特定する状態テーブルと、出力仮想チャネル
を割当てるために状態テーブルにアクセスする状態テーブルロジックとを有する
ルータ。
【請求項４２】請求項４１において、前記状態テーブルが各仮想ネットワーク
に対する仮想チャネル割当てベクタを有するルータ。
【請求項４３】請求項４２において、前記状態テーブルが、更に、前記物理的
出力チャネル中で使用中の仮想チャネルを示すビジーベクタを備え、出力仮想チ
ャネルが、仮想チャネル割当てベクタとビジーベクタの組み合せから選ばれるル
ータ。
【請求項４４】請求項３６において、前記データパケットのすべてが、複数の
仮想ネットワーク上を進み、各仮想ネットワークｉは、仮想チャネルのサイズＣ _i のサブセットを使用し、そのサブセットは、少なくとも１つの他の仮想ネットワークのサブセトにオーバーラップし、他の仮想ネットワークの中のＳ＜Ｃ₁以上でない仮想チャネルを共有するルータ。
【請求項４５】データパケットをルーティングするルータであって、前記データパケットの少なくとも一部を受け取る物理的入力チャネルと、物理的出力チャネルと、前記物理的入力および出力チャネルに結合されて、前記データパケットの一部
を格納するデータバッファと、前記物理的入力および出力チャネルならびに前記データバッファに結合されて
、物理的チャネル上に多重化される仮想チャネルに対するデータパケットの割当
てを作成し、データパケットが、別のデータパケットがアクセスを持つ複数の仮
想チャネルへのアクセスを共有し、第１データパケットが第２データパケットと
仮想チャネルのすべてではなく一部分を共有するコントロール回路とを備えたル
ータ。
【請求項４６】データパケットをルーティングするルータのネットワークであ
って、各ルータが、前記データパケットの少なくとも一部を受け取る物理的入力チャネルと、物理的出力チャネルと、前記物理的入力および出力チャネルに結合されて、前記データパケットの一部
を格納するデータバッファと、前記物理的入力および出力チャネルならびに前記データバッファに結合されて
、物理的チャネル上に多重化される仮想チャネルに対するデータパケットの割当
てを作成し、第１データパケットは、サイズＣ₁の第１セットの仮想チャネルへのアクセスを持ち、第２データパケットは、サイズＣ₂の第２セットの仮想チャネルへのアクセスを持ち、０＜Ｓ＜Ｃ₁およびＳ＜Ｃ₂であるサイズＳの第１セッ
トおよび第２セットの交点が存在するコントロール回路とを備えたルータのネッ
トワーク。
【請求項４７】データパケットをルーティングする方法であって、データパケットの少なくとも一部を格納し、物理的チャネル上に多重化される仮想チャネルへのデータパケットの割当てを
作成し、第１データパケットは、サイズＣ₁の仮想チャネルの第１セットへのアクセスを持ち、第２データパケットは、サイズＣ₂の仮想チャネルの第２セットへのアクセスを持ち、０＜Ｓ＜Ｃ₁およびＳ＜Ｃ₂であるサイズＳの第１および第
２セットの交点が存在し、物理的出力チャネル上にデータパケットの格納された部分を転送するルーティ
ング方法。