JP2004503136A

JP2004503136A - キュー再同期：分散スイッチングシステムの同期式リアルタイムアップグレード

Info

Publication number: JP2004503136A
Application number: JP2002507580A
Authority: JP
Inventors: ビアンキーニ，ロナルド　ピー．，ジュニア．; シュルツ，ジェフ; レッディ，ベェーラ; ホック，ジョセフ　エー．
Original assignee: マルコーニ　コミュニケーションズ，インコーポレイテッド
Priority date: 2000-06-30
Filing date: 2001-06-29
Publication date: 2004-01-29
Also published as: EP1216549A1; DE60119068D1; EP1216549A4; WO2002003619A1; DE60119068T2; US6473433B1; EP1216549B1; AU2001271659A1

Abstract

スイッチ制御プロセッサに繋がれたネットワークのスイッチに関する。スイッチはポートカードを含み、該ポートカードはネットワークからパケットを受け取り、ネットワークへパケットを送る。スイッチは、制御情報を与えるスイッチ制御プロセッサを具えている。スイッチは、パケットをスイッチングするファブリックを含んでいる。

Description

【０００１】
発明の分野　本発明は、トラフィックを止めずに分散（ｄｉｓｔｒｉｂｕｔｅｄ）スイッチングシステムをリアルタイムで同期的に（ｓｙｎｃｈｒｏｎｏｕｓｌｙ）アップグレードすることに関する。特に、本発明は、キュー再同期信号を送り、この信号が受信された場合に、全てのスイッチング要素を、同じ論理時間でこの信号に作用させることで、トラフィックを止めずに分散スイッチングシステムをリアルタイムで同期的にアップグレードすることに関する。
【０００２】
発明の背景　多数のスイッチング要素が各パケットの部分を処理する分散スイッチングシステムでは、全てのスイッチング要素は同期している、すなわち、同じ論理時間で同じステップを実行している必要がある。例えば、利用される資源（ｒｅｓｏｕｒｃｅ）の一時的なオーバーブッキング（ｏｖｅｒｂｏｏｋｉｎｇ）によってパケットが廃棄される場合に、特にこれは問題とされる。通常、新たなスイッチング要素が加えられるような、又はは、システム制御情報が全てのスイッチング要素において同期的にアップデートされる必要があるようなシステムアップグレードの間、アップグレードが完了するまで、全てのトラフィックは止められる。これは、トラフィックを長期間止めることが出来ない重要なシステムでは問題である。複数のファブリックへのデータの分散を行い、パリティデータを別のファブリックへ送るスイッチは、米国特許公報０９／３３３，４５０号に開示されている。同公報は引用をもって記載に加える。また、米国特許公報０９／２９３，５６３号を参照すると、ワイドメモリＴＤＭスイッチングシステムが開示してあり、同公報も引用をもって記載に加える。
【０００３】
発明の要約　本発明はネットワークのスイッチに関する。スイッチは、ポートカードを具え、該ポートカードは、ネットワークからパケットを受け取り、ネットワークへパケットを送る。スイッチは、制御情報を与えるためのスイッチ制御プロセッサを具える。スイッチは、パケットをスイッチングするファブリック（又はスイッチング要素）を具える。ファブリックは、スイッチ制御プロセッサから制御情報を受信するが、ポートカードの１つから各ファブリックが制御開始信号を受信する場合、全てのファブリックは、同じ論理時間で制御情報を実行するだけである。各それぞれのファブリックは、それらが制御開始信号を受信する前と、受信している最中と、受信した後と、連続的にパケットを処理する。
【０００４】
本発明は、パケットをスイッチングする方法に関する。該方法は、スイッチのポートカードでネットワークからパケットを受け取る工程を含む。そして、各パケットのフラグメントをスイッチのファブリックへ送る工程がある。そして、ポートカードがパケットを受け取ることを続けているときに、制御情報をプロセッサからスイッチのファブリックへ配布する工程がある。次に、ネットワークを通じて、スイッチ制御プロセッサからのスイッチ制御信号をポートカードで受信する工程がある。そして、ポートカードからファブリックへ制御開始信号を送る工程がある。次に、全てのファブリックが同時に制御情報を実行するように、それぞれのファブリックが制御開始信号を受信した後のみ、各ファブリックで制御情報を実行する工程がある。
【詳細な説明】
【０００５】
幾つかの図面を通じて、同じ符号は類似又は同一の部分を示している。図８を参照すると、スイッチ制御プロセッサ（１８）に繋がれたネットワーク（１２）のスイッチ（１０）が示されている。スイッチ（１０）は、ポートカード（１４）を具えており、該ポートカード（１４）は、ネットワーク（１２）からパケットを受け取り、ネットワーク（１４）へパケットを送る。スイッチは、制御情報を生成するためのスイッチ制御プロセッサ（２１）を具える。スイッチ（１０）は、パケットをスイッチングするためのファブリック（１６）を具える。ファブリック（１６）は、スイッチ制御プロセッサ（１８）から制御情報を受信するが、全てのファブリック（１６）は、ポートカード（１４）の１つから各ファブリックが制御開始信号を受信する場合に、同じ論理時間で制御情報を実行するだけである。各それぞれのファブリックは、それらが制御開始信号を受信する前と、受信している最中と、受信した後と、連続的にパケットに作用する。ファブリックはスイッチ制御プロセッサ及びポートカードに繋がれている。
【０００６】
各ポートカード（１２）は分散器（２０）を含み、該分散器（２０）は、各パケットのそれぞれの部分を各ファブリックに送る。全てのファブリック（１６）は、互いに同期しているのが好ましい。全てのファブリック（１６）は、分散器（２０）からパケットフラグメントを受け取る集約装置（２２）と、集約装置（２２）によって受け取られたパケットフラグメントが記憶されるメモリコントローラ（２４）と、メモリコントローラ（２４）のパケットフラグメントをポートカード（１４）に送るセパレータ（２６）とを有する。
【０００７】
集約装置（２２）、そしてメモリコントローラ（２４）、次に各ファブリックのセパレータ（２６）がそれぞれ同期に至らされることより、制御開始信号が受信された後で、各ファブリックは、他の全てのファブリック（１６）と同期するのが好ましい。制御開始信号は、キュー再同期（ｒｅｓｙｎｃｈ）パケットの状態で送られるのが好ましい。各ファブリックは、キュー再同期状態に入るのが好ましく、ファブリック（１６）によってキュー再同期状態に入る前にファブリックによって受け取られた全てのパケットフラグメントは、デキューされ（ｄｅｑｕｅｕｅｄ）、キュー再同期状態に入った後にファブリックによって受け取られたどのパケットフラグメントも、所定のキュー再同期時間が経過した後にのみデキューされる。
【０００８】
本発明は、パケットをスイッチングする方法に関する。該方法は、スイッチ（１０）のポートカード（１４）でネットワーク（１２）からパケットを受け取る工程を含む。そして、各パケットのフラグメントをスイッチ（１０）のファブリック（１６）へ送る工程がある。そして、ポートカード（１４）がパケットを受け取ることを続けている時に、制御情報をスイッチ制御プロセッサ（２１）からスイッチ（１０）のファブリック（１６）へ配布する工程がある。次に、ネットワーク（１２）を通じて、スイッチ制御プロセッサ（１８）からのスイッチ制御信号をポートカード（１４）で受信する工程がある。そして、ポートカード（１４）からファブリック（１６）へ制御開始信号を送る工程がある。次に、全てのファブリック（１６）が同時に制御情報を実行するように、それぞれのファブリックが制御開始信号を受信した後のみ、各ファブリックで制御情報を実行する実行工程がある。
【０００９】
実行工程は、それぞれのファブリックが制御情報を実行する際に、各ファブリックによってキュー再同期状態に入る工程を具えるのが好ましい。該キュー再同期状態に入る工程の後に、ファブリックが再同期状態に入った後にファブリックによって受け取られたどの新しいパケットフラグメントもデキューされる前に、ファブリックによって受け取られたどのパケットフラグメントもデキューするデキュー工程を具えるのが好ましい。
【００１０】
デキュー工程は、どの新しいパケットもデキューする工程を含むのが好ましく、所定のキュー再同期時間が経過した後、又は受け取られた新しいパケットフラグメントもパケットフラグメントのプリセットキュー再同期しきい値に達する後のみに、該パケットをデキューする。制御情報を受け取る工程の前に、スイッチ（１０）のファブリックに新しいファブリックを加える工程があるのが好ましい。そして、制御情報を受け取る工程は、新しいファブリックの加入に関する情報を含む制御情報を受け取る工程を含むのが好ましい。
【００１１】
パケットのフラグメントを送る工程は、ポートカード（１４）の分散器（２０）を用いて、各ファブリックの集約装置（２２）にパケットのフラグメントを送る工程を含むのが好ましい。前記キュー再同期状態に入る工程は、各ファブリックの集約装置（２２）、そしてメモリコントローラ（２４）、次にセパレータをそれぞれ同期させる工程を含むのが好ましい。制御開始情報を受け取る工程は、制御開始情報を有するキュー再同期パケットを受け取る工程を含むのが好ましい。該制御開始情報は、送られている他のパケットにも挿入されている。
【００１２】
本発明の実施において、各ファブリックが各パケットの部分を取り扱うようなＢＦＳ（ＢｉｇＦａｓｔＳｗｉｔｃｈ）では、全てのファブリックが同じパケットエンキュー（ｅｎｑｕｅｕｅ）及びデキュー決定を可能なように、全てのファブリック（１６）は同期している（同じ論理サイクル、及び同じキュー状態でで同じオペレーションを実行する）必要がある。このことにより、全てのファブリック（１６）に亘って、全パケットが受け入れられる又は廃棄されること、及び、パケットセグメントが同じ大きさでデキューされることが保証される。
【００１３】
幾つかのファブリック（１６）が起動し（ｕｐａｎｄｒｕｎｎｉｎｇ）、トラフィックがそれらを通って流れる間に、１つ又は２以上の新しいファブリック（１６）が付加される場合は、新しいファブリックは、既存のファブリック（１６）と同期していないかも知れない。それらは、異なるキュー深さ（ｄｅｐｔｈ）を有し、それらのステートマシーンは、既存のファブリックに対して異なる状態にあるだろう。新しく加えられたファブリックが他のファブリック（１６）と同期化される（すなわち、同じキュー深さであり、同じステートマシーンの状態である）まで、新しいファブリック（１６）は、使えない情報を運んでいる。これは、送付先のポートカード（１４）では使用されない。新しいファブリックが古いファブリックと同期した後にのみ、それらは使用できるトラフィックを運ぶことができる。新しく加えられたファブリックを古いファブリック（１６）と同期させるために、キュー深さと、これら新しいファブリックの内部ステートマシーンのうちの一部の状態とは、古いファブリック（１６）と同じにさせるべきである。
【００１４】
これを行うために、キュー再同期パケットと呼ばれる特別なパケットは、スイッチ制御プロセッサ（１８）のうちの１つから全てのファブリック（１６）へ送られる。このパケットを受け取ると、全てのファブリック（１６）は、これを同じ論理時間でキュー再同期イベントとして認識し、キュー再同期状態に入る。それらは、全ての古いパケット（キュー再同期イベントの前に受け取られたパケット）をデキューし、所定のキュー再同期時間が経過した後にのみ、所定のキューから新しいパケット（キュー再同期イベントの後に受け取られたパケット）をデキューする。キュー再同期時間は、古いパケットを排出するのに充分長く、新しいパケットの廃棄を避けるのに充分短く設定される。キュー再同期時間の経過前にデキューされ得るよりも多くの新しいパケットが到着する場合には、古いパケットを廃棄することにより、新しいパケットのためにバッファ内に空間が設けられる。また、新しいパケットのカウントが、キュー再同期しきい値と呼ばれるプリセットしきい値に達する場合、キュー再同期状態は抜け出される。キュー再同期状態がキュー再同期状態に達すること、又はキュー再同期しきい値に達することのいずれかによって、キュー再同期状態が抜け出される場合、バッファ内にまだ留まっているどの古いパケットもフリーバッファへ放出される。このことにより、キュー再同期状態の終わりで、全てのファブリックキュー及びステートマシーンは、同じ状態にあり、ファブリック（１６）は、同じ大きさで同じパケットをエンキューし、デキューすることが保証される。
【００１５】
ＢＦＳでは、ファブリックを他のファブリック（１６）と同期させるために、集約装置、メモリコントローラ、及び分散器などの新しいファブリック上の全ての要素は、古いファブリック（１６）の対応する要素と同期されるべきである。これは、ある要素でキュー再同期工程を実行し、データフローと同じ方向の次の要素で引き続き実行することによって達成される。これは、伝播（Ｐｒｏｐａｇａｔｅｄ）キュー再同期と呼ばれる。
【００１６】
ある制御情報が複数のファブリック（１６）で同期的にアップデートされる必要がある場合もまた、キュー再同期を用いることができる。ファブリック（１６）はすでに同期していると想定すると、最初に、各ファブリックについて個別に制御情報をアップデートする。しかし、その変更をまだ効果的にはしない。そして、キュー再同期処理、又はそれの変更型を実行して、キュー再同期処理の最後でアップデートされた制御情報を効果的にする。このイベントは、全てのファブリック（１６）で同じ論理クロックサイクルで起こるから、それら全ては、同じ論理ステップでアップデートされた制御情報を見ることになる。
【００１７】
このアプローチは最小のオーバーヘッドである。キュー再同期パケット自体を送るために、ある量の特別な帯域幅が存在すべきであろう。システム構成が変化した場合においてのみこのパケットは送られる必要があるから、この特別な帯域幅の要求は無視でき、キュー再同期パケットを最小の長さのパケットとすることができる。また、複数のファブリック（１６）に亘って同期状態をもたらすのに必要なデータパスＦＩＦＯは、通常よりも深くなければならない。全てのファブリックにおいて、どのファブリック（１６）もこれらＦＩＦＯからの新しいパケットをリードする前に、これらＦＩＦＯは古いパケットを送るためである。ＢＦＳでは、集約装置ＦＩＦＯは、キュー再同期をサポートするために、通常よりも１／３深くされる必要がある。これらの増加オーバーヘッドを伴ってさえ、キュー再同期は、分散スイッチングシステムでリアルタイム同期アップデートを与える大きな利益である。
【００１８】
システムのアップグレードの間、トラフィックを止める代わりに、アップグレードはリアルタイムで実行される。キュー再同期（すなわち、システムアップグレード）情報を、入力スイッチ制御プロセッサ（１８）のうちの１つからのデータトラフィックに沿う全てのスイッチング要素に送ることにより、そして、スイッチング要素が同じ論理時間でこの情報に従って働くことにより、アップグレードは完了され、付加されると共に他の要素と同期していないどの新しいスイッチング要素も同期化される。同じアプローチは全てのスイッチング要素において、どのシステム制御情報をも同期的にアップグレードするのにも使用できる。
【００１９】
スイッチは、ＲＡＩＤ技術を使用し、個別のファブリック帯域幅を最小限にしつつ、スイッチ帯域幅全体を増大する。スイッチアーキテクチャにおいて、全てのデータは全てのファブリックに均一に分配されるので、スイッチはファブリックを加えることによって帯域幅を増し、ファブリックは、スイッチが帯域幅容量を増大すれば、ファブリックの帯域幅容量を増大する必要がない。
【００２０】
各ファブリックは４０Ｇ（ｂｐｓ）の交換帯域幅を提供しており、システムは、冗長／予備ファブリックを除いた１、２、３、４、６又は１２ファブリックを利用する。換言すると、スイッチは、ファブリックが幾つインストールされるかによって、４０Ｇ（ｂｐｓ）、８０Ｇ、１２０Ｇ、１６０Ｇ、２４０Ｇ又は４８０Ｇのスイッチとなり得る。
【００２１】
ポートカードは、１０Ｇ（ｂｐｓ）のポート帯域幅を提供する。４ポートカード当たり１ファブリックになることが必要である。スイッチアーキテクチャは、ポートカード及びファブリックの任意インストレーションをサポートしない。
【００２２】
ファブリックＡＳＩＣｓは、セルとパケットの両方をサポートする。全体として、スイッチは、“受信器が適切にする（ｒｅｃｅｉｖｅｒｍａｋｅｓｒｉｇｈｔ）”方法をとっており、この方法においてＡＴＭブレード上の出口パス（ｅｇｒｅｓｓｐａｔｈ）は、フレームをセグメント化してセルにしなければならず、フレームブレード上の出口パスは、セルをまとめて再びパケットにしなければならない。
【００２３】
スイッチ内で使用される一般に８スイッチのＡＳＩＣは：
−分散器（Ｓｔｒｉｐｅｒ）−分散器は、ポートカード及びＳＣＰ−ＩＭ上に
在する。
それは、データを１２ビットのデータストリームにフォーマットし、チェッ
クワードを添付し、Ｎ即ちシステム中の予備でないファブリックを横切って
データストリームを分割し、他のファブリックに向かうストライプと同等な
幅のパリティストライプを生成し、且つＮ＋１データストリームをバックプ
レーンへ送出する。
−非分散器（ｕｎｓｔｒｉｐｅｒ）−非分散器は、スイッチアーキテクチャ内
の他のポートカードＡＳＩＣである。これは、システム中の全てのファブリ
ックからデータストリームを受信する。次に、誤り検出修正を実行するため
に、チェックワード及びパリティ分散を使用して、元のデータストライプを
再構築する。
−集約装置（Ａｇｇｒｅｇａｔｏｒ）−集約装置は、分散器からデータストリ
ーム及びルートワードを取り出し、それらを多重化してメモリコントローラ
への単一の入力ストリームにする。
−メモリコントローラ−　メモリコントローラは、スイッチのキュー及びデキ
ュー（キューから外す）メカニズムを実行する。これは、クロックサイクル
毎に複数セルのデータを同時にエンキュー（ｅｎｑｕｅｕｅ、キューに入れ
る）／デキューをするために、独占排他権を有する広いメモリインタフェー
スを含んでいる。メモリコントローラのデキュー側は、コネクションのキュ
ー及びシェーピングの大部分をポートカード上で行わせるために、４０Ｇｂ
ｐｓよりも８０Ｇｂｐｓで稼働する。
−セパレータ−　セパレータは、集約装置と逆の操作を実行する。メモリコン
トローラからのデータストリームは、複数のデータストリームに逆多重され
、適当な非分散器ＡＳＩＣへ送達される。非分散器へのインタフェースには
、キューとフローとの制御ハンドシェーキングが含まれている。
【００２４】
ファブリック間のコネクションについては、３つの異なった視点即ち、物理的、論理的、及び“動的”な視点で見ることができる。物理的には、ポートカードとファブリックとの間のコネクションは、あらゆるギガビット速度の差分ペアのシリアルリンクである。これは、厳密に言うと、バックプレーンへ向かう信号数を減少するための実現（ｉｍｐｌｅｍｅｎｔａｔｉｏｎ、ソフトとハードの調整）の問題である。“動的な”観点では、単一のスイッチの形状を考察するか、又は所定の時点でデータが如何に処理されているかというスナップショットとして考察されるだろう。ポートカード上のファブリックＡＳＩＣとファブリックとの間のインタフェースは、１２ビット幅であるのが効果的である。それらの１２ビットは、ファブリックＡＳＩＣｓが如何に構成されているかによって１、２、３、４、６又は１２ファブリックへ均一に分散（ｓｔｒｉｐｅ）される。“動的”な観点は、現在の構成において各ファブリックによって処理されているビットの数を意味しており、これはファブリック数で割るとちょうど１２である。
【００２５】
論理的な視点は、ある得る動的構成の全ての合併又は最大機能として考えられることができる。ファブリックスロット＃１は、構成に応じて、単一分散器からのデータの１２、６、４、３、２又は１ビットを処理しているであろうゆえに、１２ビットバスで引き抜かれる。それとは対照的に、ファブリックスロット＃３は、単一分散器からのデータの４、３、２又は１ビットを処理するのに使用されるだけであるがゆえに、４ビットバスで引き抜かれる。
【００２６】
以前のスイッチとは違って、該スイッチは、ソフトウェアにより制御可能なファブリック冗長モードの概念を全く有していない。ファブリックＡＳＩＣｓは、予備ファブリックがインストールされている限り、介入なしにＮ＋１冗長を実行する。
【００２７】
ここで提供される限り、Ｎ＋１冗長は、ハードウェアが、データの損失なしに自動的に単一の障害を検出し、修正することを意味する。
【００２８】
冗長性が作動する方法はかなり単純だが、３つのファブリック（Ａ、Ｂ及びＣ）＋予備（Ｓ）を有する１２０Ｇスイッチが使用される特定のケースを理解すれば、より簡単になる。分散器は、１２ビットバスを選び、まず、データユニット（セル又はフレーム）に添付されるチェックワードを生成する。次に、データユニット及びチェックワードは、Ａ、Ｂ及びＣファブリックの各々についてクロックサイクル当り４ビットデータストライプ（Ａ３Ａ２Ａ１Ａ０、Ｂ３Ｂ２Ｂ１Ｂ０及びＣ３Ｃ２Ｃ１Ｃ０）に分割される。次に、これらのストライプは、予備ファブリックＳ３Ｓ２Ｓ１Ｓ０用のストライプを生成するのに使用される。ここで、Ｓｎ＝ＡｎＸＯＲＢｎＸＯＲＣｎであり、これら４つのストライプは、それらの対応するファブリックへ送られる。ファブリックの反対側において、非分散器は、Ａ、Ｂ、Ｃ及びＳから４つの４ビットストライプを受け取る。次に、３つのファブリックのあり得る全ての組合せ（ＡＢＣ、ＡＢＳ、ＡＳＣ及びＳＢＣ）は、“一時的な”（ｔｅｎｔａｔｉｖｅ）１２ビットのデータストリームの再構築に使用される。次に、チェックワードは、４つの一時的なストリームの各々のために計算され、計算されたチェックワードは、データユニットの端部のチェックワードと比較される。伝送の間にエラーが生じなかった場合、４ストリーム全ては、チェックワードが整合しており、ＡＢＣストリームは非分散器出力へ転送される。（単一の）エラーが生じた場合、１つのチェックワードだけが整合しており、整合を含むストリームはチップ外へ転送され、非分散器は不良のファブリック分散を識別する。
【００２９】
スイッチの構成が異なると、即ち、１、２、４、６又は１２ファブリックであると、アルゴリズムは同一であるが、ストライプ幅は変化する。
２つのファブリックが故障すると、スイッチ中を流れるデータの全ては、殆ど確実に崩れが生じるであろう。
【００３０】
ファブリックスロットは、番号が付され、昇順に並べられなくてはならない。また、予備ファブリックは特定のスロットであるから、ファブリックスロット１、２、３及び４は、ファブリックスロット１、２、３及び予備とは異なる。前者は冗長のない１６０Ｇスイッチであり、後者は冗長を含む１２０Ｇである。
【００３１】
第一に、特定のポートカードスロットを使用するには、そこに、予備を含まない少なくとも１つの所定の最小数のファブリックがインストールされることが必要であるように、ＡＳＩＣは構成され、バックプレーンは接続される。この関係は表０に示されている。
【００３２】
それに加え、スイッチ内のＡＰＳ冗長は、特にペアのポートカードに限定される。ポートカード１及び２はペア、ポートカード３及び４はペアというようになっており、これはポートカード４７及び４８まで続いている。これは、ＡＰＳ冗長が要求される場合、ペアのスロットは一緒でなければならないことを意味している。
【００３３】
簡単な例として、２つのポートカード及びファブリックを１つだけ含む構成を挙げてみる。ユーザがＡＰＳ冗長の使用を望まない場合、２つのポートカードは、ポートカードスロット１乃至４のうちの任意の２つにインストールされることができる。ＡＰＳ冗長が望まれる場合には、２つのポートカードは、スロット１及び２、或いはスロット３及び４の何れかにインストールされなければならない。
【００３４】
【表１】

表０：ポートカードスロットの使用に関するファブリックの要件
【００３５】
容量を増やすには、新たなファブリックを追加し、スイッチが変化を認識し、新しいファブリックの数を分散してシステムを再形成するのを待つ。新しいポートカードをインストールする。
【００３６】
技術的には、ファブリック毎に容量一杯の４つのポートカードを持つことは不要である。スイッチは、３つのインストール済ファブリック及びスロット（１２）の単一ポートカードで正常に機能する。これはコスト面では有効ではないが、機能可能である。
【００３７】
容量を削除するには、容量追加の工程を逆に行う。
もし、スイッチが超過したとき、即ち、８つのポートカードと１つのファブリックをインストールした場合。
スイッチが超過するのは、スイッチを適度でないアップグレードしたとき、又はある種のシステム障害の結果として発生するだけである。現実には、この状況がどのように発生するかによって２つのうちの１つが発生する。もしスイッチが４０Ｇスイッチとして構成され、ファブリック前にポートカードが追加されたら、第５から第８ポートカードは用いられない。もし、スイッチが８０Ｇの非冗長のスイッチとして構成され、第２ファブリックが不能又は削除されると、スイッチを通じたすべてのデータが不正になる（予備のファブリックはインストールされていないと仮定する）。そして、完了直前に、もし８つのポートカードが８０Ｇの冗長スイッチにインストールされており、そして、第２ファブリックが不能又は削除されていると、予備のスイッチが不能又は削除されたファブリックをカバーして通常の操作を続行する。
【００３８】
図１は、スイッチのパケットストライピングを表している。
チップセットは、ＯＣ４８及びＯＣ１９２ｃの両方の構成中のＡＴＭ及びＰＯＳポートカードをサポートする。ＯＣ４８ポートカードは、４つの別々のＯＣ４８フローを用いてスイッチングファブリックへインターフェースする。ＯＣ１９２ポートカードは、４チャンネルを１０Ｇストリームへ論理的に結合させる。ポートカードの入口側は、ＡＴＭセルとパケット間で変化するトラフィックへのトラフィック変換を実行しない。受信したトラフィックのフォームがどれであれ、スイッチファブリックへ送られる。スイッチファブリックはパケットとセルを混合し、パケットとセルの混合をポートカードの出口側へデキューする（キューから外す）。
【００３９】
ポートの出口側は、トラフィックを変換して出力ポートへの適正なフォーマットとしなければならない。この変換は、スイッチの内容について”受信器が適切にする（ｒｅｃｅｉｖｅｒｍａｋｅｓｒｉｇｈｔ）”として呼ばれている。セルブレードは、パケットの区切りを実行し、セルブレードはセルをパケット内にて再組立する必要がある。ファブリックのスピードアップをサポートするため、ポートカードの出口側は、ポートカードの着信側の２倍に等しいリンクバンド幅を用いる。
【００４０】
ポセイドンをベースにした（Ｐｏｓｅｉｄｏｎ−ｂａｓｅｄ）ＡＴＭポートカードのブロック図は、図２に示される。各２．５Ｇチャンネルは入力側ＴＭ、入力側の分散器ＡＳＩＣ、非分散器ＡＳＩＣ、出力側の出力ＴＭ　ＡＳＩＣの４つのＡＳＩＣで構成される。
【００４１】
入力側において、ＯＣ−４８ｃ又は４ＯＣ−１２ｃインターフェースは集約される。各ボルテックス（ｖｏｒｔｅｘｓ）は、２．５Ｇセルストリームを専用の分散器ＡＳＩＣへ送信する（下記に表されるようにＢＩＢバスを使用する）。分散器は供給されたルートワードを２つの部分へ変換する。ルートワードの一部は、セルへの出力ポートを決定するためファブリックへ送られる。全ルートワードもまた、出力メモリコントローラによって使用されるルートワードとしてバスのデータ部分上へ送られる。第１ルートワードは“ファブリックルートワード”として表される。出力メモリコントローラのルートワードは“出口ルートワード”である。
【００４２】
出力側において、各チャンネルの非分散器ＡＳＩＣは各ポートカードからトラフィックをとり、エラーチェックしデータを修復し、出力バス上へ正常なパケットを送信する。非分散器ＡＳＩＣは、予備のファブリックからのデータ、及び分散器によりインサートされるチェックサムを使用して、データ異常を検出し修復する。
【００４３】
図２は、ＯＣ４８ポートカードを表す。
ＯＣ１９２ポートカードは、ファブリックへの一つの１０Ｇデータ流れ、及び１０Ｇと２０Ｇ間の出口データ流れをサポートする。このボードも４つの分散器及び４つの非分散器を使用する。しかし、４つのチップは拡張データバス上で並列に操作される。各ファブリックへ送られたデータは、ＯＣ４８及びＯＣ１９２ポートの両方について同一であり、データは、特別な変換機能を必要としないポートタイプ間を流れる。
【００４４】
図３は、１０Ｇ連結ネットワークブレードを表す。
各４０Ｇスイッチファブリックは、４０Ｇｂｐｓセル／フレームまでエンキューし（ｅｎｑｕｅｕｅ、キューに入る）、それらを８０Ｇｂｐｓでデキューする。この２Ｘスピードアップにより、ファブリックにて緩衝されたトラフィックの量が減り、ラインレートの十分上方で出力ＡＳＩＣダイジェストのトラフィックを噴出させる。　スイッチファブリックは集約装置（ａｇｇｒｅｇａｔｏｒ）、メモリコントローラ、セパレータの３種類のＡＳＩＣから構成される。９つの集約装置ＡＳＩＣは、４８までのネットワークブレード及びコントロールポートからのトラフィックの４０Ｇｂｐｓを受信する。集約装置ＡＳＩＣは、ファブリックルートワード及びペイロードを結合して、単一データストリーム、及びソース間のＴＤＭにし、配備され生じる結果をワイド出力バス上に設置する。追加のコントロールバス（ｄｅｓｔｉｄ）は、メモリコントローラがデータをどのようにエンキューするかをコントロールするのに使用される。各集約装置ＡＳＩＣからのデータストリームは１２のメモリコントローラへ分けられる。
【００４５】
メモリコントローラは、１６までのセル／フレームを各時刻サイクルで受信する。各１２のＡＳＩＣは集約されたデータストリームの１／１２を収納する。次に入力中のデータはｄｅｓｔｉｄバス上に受信されたコントロール情報を基にしており収納される。データの収納は、メモリコントローラにて、パケット境界が比較的気づかないほどに単純化される（キャッシュ　ライン　コンセプト）。全１２のＡＳＩＣは８０Ｇｂｐｓに集約されたスピードで、収納されたセルを同時にデキューする（キューから外す）。
【００４６】
９つのセパレータＡＳＩＣは集約装置ＡＳＩＣの逆機能を実行する。各セパレータは全ての１２のメモリコントローラからのデータを受信し、集約装置によってデータストリームに埋め込まれたルートワードを復号し、パケット境界を探す。各セパレータＡＳＩＣは、データがセパレータへ送られたようにメモリコントローラによって示された正確な目的地に応じて、２４までの別の非分散器にデータを送る。
【００４７】
デキュー工程は、バックプレッシャされる。もし、バックプレッシャが非分散器に適用されたら、バックプレッシャはセパレータへ逆連繋される。セパレータ及びメモリコントローラも、メモリコントローラが出力ポートへトラフィックをデキューできる時に制御するバックプレッシャメカニズムを有する。
【００４８】
チップセットのＯＣ４８及びＯＣ１９２を有効的にサポートする為に、１つのポートカードからの４つのＯＣ４８ポートは常に同じ集約装置へと同じセパレータから送られる（集約装置及びセパレータのポート接続は常に対称である）。
【００４９】
図４及び図５は、ファブリックＡＳＩＣの接続を表している。
スイッチの外部インターフェースは、分散器ＡＳＩＣとボルテックス（ｖｏｒｔｅｘ）などの入口ブレードＡＳＩＣ間の入力バス（ＢＩＢ）であり、非分散器ＡＳＩＣとトライデント等の出口ブレードＡＳＩＣ間の出力バス（ＢＯＢ）である。
分散器ＡＳＩＣは入力バス（ＢＩＢ）を経由した入口ポートからのデータを受け取る（ＤＩＮＳＴｂｌｃｈｂｕｓとしても知られる）。
【００５０】
このバスは、４つの別々の３２ビット入力バス（４×ＯＣ４８ｃ）、又は全ての分散器へのコントロールラインの共通セットを具え、単一１２８ビット幅データバスの何れかとしても作動できる。このバスは、分散器チップのソフトウェア構成に基づいたセル又はパケットのどちらかをサポートする。
【００５１】
非分散器ＡＳＩＣは出力バス（ＢＯＢ）（ＤＯＵＴＵＮｂｌｃｈｂｕｓとしても知られる）を経由して出口ポートへデータを送る。それはセル又はパケットのどちらかをサポートできる６４（又は２５６）ビットデータバスである。それは下記の信号から構成される。
【００５２】
このバスは、４つの別々の３２ビット出力バス（４×ＯＣ４８ｃ）、又は全ての非分散器からのコントロールラインの共通セットを具え、単一１２８ビット幅データバスの何れかとして作動できる。このバスは、非分散器チップのソフトウェア構成に基づくセル又はパケットのどちらをも用いる。
【００５３】
同期装置は２つの主な目的を持つ。第１の目的は、論理的セル／パケット又はデータグラムを全てのファブリックに亘って順序付けて維持することである。ファブリックの入口インターフェース上で、１つのポートカードのチャンネルから１つ以上のファブリックに達するデータグラムは、全てのファブリックが同じ順序で処理される必要がある。同期装置の第２の目的は、たとえ、データグラムセグメントは１つ以上のファブリックから送られ、違う時間にブレード出口入力に到着しても、ポートカードの出口チャンネルを有し、一緒に属している全てのセグメント又はデータグラムのストライプを再構成することである。このメカニズムは、別のネット遅延と、ブレードとファブリック間にてクロックドリフトの変動量を有するシステムで維持することが必要である。
【００５４】
スイッチは、開始情報がシステム全体に伝わる同期ウィンドウのシステムを使用する。各送信器及び受信器は、最新の再同期表示から多数のソースからの同期データまで関連するクロックカウントを見ることが出来る。受信器は広域同期表示を受け取った後に、プログラム可能な遅延まで、同期期間での第１クロックサイクルのデータの受取を遅らせる。
この時点で、全てのデータは同時に受信されたと考えられ、修正された順序付けが適用される。ボックスを通じた遅れのために、パケット０及びセル０の遅延が別の順序で受信器に見られることを引き起こすにもかかわらず、受信時間＝１に於ける両方のストリームの結果順序は、物理的バスに基づいて、そこから受信したパケット０、セル０と同じである。
【００５５】
多重セル又はパケットを、１つのカウンタチック（ｃｏｕｎｔｅｒｔｉｃｋ）へ送信することができる。全ての宛先は、第２インターフェース等に移動する前に、第１インターフェースからの全てのセルを整える。このセル同期化技術は、全てのセルインターフェースに使用される。幾つかのインターフェース上には別の解決方法が必要とされる。
【００５６】
同期装置は、２つの主なブロックから成る。主に、送信器と受信器である。送信器ブロックは、分散器及びセパレータＡＳＩＣに属する。受信器ブロックは、集約装置及び非分散器ＡＳＩＣ内にある。集約装置の受信器は、２４（６ポートカード×４チャンネル）入力レーンまで扱える。非分散器の受信器は、１３（１２ファブリック＋１パリティーファブリック）入力レーンまで扱える。
【００５７】
同期パルスの受信時、送信器は先ず早いクロックサイクル（Ｎクロック）の数を計算する。
【００５８】
送信同期装置は、出力ストリームを遮断し、及びロックダウンすることを示すＮＫキャラクターを伝達する。ロックダウンシーケンスの最後に、送信器は次のクロックサイクルにて有効データが始まることを示しているＫキャラクターを伝達する。この次のサイクル有効表示は、全てのソースからトラフィックを同期すらために受信器によって使用される。
【００５９】
次の伝達の最後に、送信器は、インターフェース上に少なくとも１つのアイドルを挿入する。これらのアイドルは、もし復号器が同期から外れるとしたら、１０ビット復号器を１０ビットシリアルコードウインドウへ正常に再同期させる。
【００６０】
受信同期装置は広域同期パルスを受信し、プログラムされた数により同期パルスを遅らせる。（物理的ボックスが有し得る最大量のトランスポート遅延に基いてプログラムされている。）同期パルスを遅延させた後、受信器は同期キャラクターの直ぐ後のクロックサイクルを受信するのに適しているとする。データは各クロックサイクルで、次の同期キャラクターが入力ストリーム上に現れるまで受信される。このデータは、遅延広域同期パルスが現れるまで受信に適しているとはとらえない。
【００６１】
送信器及び受信器が別々の物理的ボード上にあり、別の発振器によってクロックされているから、クロックスピードの差がその間にある。別の送信器及び受信器間のクロックサイクルの数を区切るのに、全てのシーケンスカウンタを再同期するために広域同期パルスがシステムレベルで使用される。各チップは、全ての有効なクロックスキューのもとで、各送信器及び受信器は、少なくとも１つのクロックサイクルにより早いと必ずするように、プログラムされている。各チップは、適正な数のクロックサイクルを待って、それらの現在の同期パルスウインドウへとなる。これは全てのソースが同期パルス間のＮ同期パルスウインドウの有効なクロックサイクルを実行することを保証する。
【００６２】
例えば、同期パルスウインドウは１００クロックまでプログラム可能であるとすると、同期パルスは１００００クロック毎の同期パルスの名目速度で送られる。同期パルス送信器クロック、及び同期パルス受信クロックが共にドリフトした最悪の場合に基いて、同期パルス送信器上に１００００クロックとして受信器には９９９５から１０００５クロックが実際にある。この場合、同期パルス送信器は各１０００６クロックサイクル毎に同期パルスを送信するようにプログラムされる。１０００６クロックにより、全ての受信器が必ずそれらの次のウインドウにあるよう保証される。もし同期パルス送信器が遅いクロックを有すれば、受信器は早いクロックを具えて、実質上１００１２クロックを有する。同期パルスは１２クロックサイクルで受信され、同期パルスウィンドウへ送信するから、チップは１２クロックサイクル遅延する。別の受信器には１０００６クロックが見られ、同期パルスウインドウの最後にて、６クロックサイクルへロックダウンする。両方の場合、各ソースは１０１００クロックサイクルで動作する。
【００６３】
ポートカード又はファブリックが存在せず、又は挿入直後であり、どちらかが受信同期装置の入力を駆動しているとすると、特定の入力ＦＩＦＯへのデータの書込は禁止される。というのは、入力クロックは存在せず、又は不安定でデータラインの状態が判らないからである。ポートカード又はファブリックが挿入された時、ソフトウェアは必ず入れられ、バイトレーンへの入力を可能にして、該ソースからのデータ入力が可能となることを許す。入力ＦＩＦＯへの書込は可能になる。イネーブル信号はポートカード及びファブリックからのデータ、ルートワード、及びクロックが安定した後に、アサート（ａｓｓｅｒｔ）されると考えられる。
【００６４】
システムレベルでは、第１及び第２同期パルス送信器が２つの個別のファブリック上にある。各ファブリック及びブレード上には同期パルス受信器もある。これらは図６に見られる。
第１同期パルス送信器は、フリーランニングの同期パルスジェネレータであり、第２同期パルス送信器はその同期パルスを第１同期パルス送信器へ同期化させる。同期パルス受信器は、第１及び第２同期パルスを共に受信し、エラー検査アルゴリズムに基いて、そのボード上のＡＳＩＣ上へ正しい同期パルスを選択して送信する。同期パルス受信器は、もし同期パルス送信器からの同期パルスが、それ自信のシーケンス０カウント中に落ちたならば、同期パルスは残りのボードに送られることのみが保証される。例えば、同期パルス受信器及び非分散器ＡＳＩＣは共に同じブレード上にある。同期パルス受信器及び非分散器の受信同期装置は同じ水晶発振器からクロックされ、クロックドリフトは　内部シーケンスカウンタを増大させるのに用いられるクロック間には存在しない。受信同期装置は、受信する同期パルスは”０”カウントウインドウ内に常にあることを要求する。
【００６５】
もし同期パルス受信器が、第１同期パルス送信器が同期から外れていると判断したら、第２同期パルス送信器ソースへ切り換える。第２同期パルス送信器も第１同期パルス送信器が同期から外れているかを判定し、第１同期パルス送信器から独立して、第２同期パルス送信器自身の同期パルスを発生する。これが第２同期パルス送信器の操作の第１モードである。
もし同期パルス受信器が第１同期パルス送信器は再び同期するように成ったと判定すると、第１同期パルス送信器側に切り換える。第２同期パルス送信器も、第１同期パルス送信器が再び同期するようになったと判断したら、第２モードへ切り換える。第２モードで、独自の同期パルスを第１同期パルスへ同期させる。同期パルス受信器は、その同期パルスフィルタリングメカニズムにおいて第２同期パルス送信器よりも余裕は少ない。同期パルス受信器は、第２同期パルス送信器よりさらに早く切り換わる。これは第２同期パルス送信器が第１モードに切り換わる前に、全ての受信同期装置が第２同期パルス送信器ソースを使用することへ切り換えることを保証するために行われる。
【００６６】
図６は、同期パルスの分布状況を表す。
同期演算で示されるクロックサイクルの数によるファブリックからのバックプレーン伝達をロックダウンするために、全てのファブリックは、多くのクロックサイクルを効果的にフリーズし、同じエンキュー及びデキュー判定が同期内に留まることを確実にする。これは各ファブリックＡＳＩＣにおけるサポートを必要とする。ロックダウンは、キューリシンク（再同期）のような特殊な機能を含む全ての機能を止める。
【００６７】
同期パルス受信器からの同期信号は、全てのＡＳＩＣへ分配される。各ファブリックＡＳＩＣは、広域同期パルス間のクロックサイクルをカウントするコアクロックドメインのカウンタを含む。同期パルス受信後、各ＡＳＩＣは早いクロックサイクルの数を演算する。広域同期パルスは自身のクロックで伝えられないから、演算されたロックダウンサイクル値は同じファブリック上の全てのＡＳＩＣと同じにはならない。この差は、全てのインターフェースＦＩＦＯをロックダウンカウントの最大スキューを許容できる奥行きを保持することにより説明される。
【００６８】
全てのチップ上のロックダウンサイクルは、“有用な”（ロックダウンしない）サイクルの最後のシーケンスの始まりに対応した同じ論理的ポイントへ常に挿入されている。それは、各チップは常に、ロックダウンサイクルの数がたとえ変化しても、ロックダウン事象間の同じ数の”有用な”サイクルを実行する。
【００６９】
ロックダウンは、異なる時間に異なるチップで発生するかも知れない。全てのファブリック入力ＦＩＦＯは、初期に設定され、ＦＩＦＯが、ドライ又はオーバーフローすることなしに、ロックダウンはＦＩＦＯのどちらか側で最初に発生できるようになっている。各々のチップツーチップインターフェースには、（基板トレース長さ及びクロックスキューと同じく）ロックダウンサイクルを引き起こす同期ＦＩＦＯがある。送信機は、ロックダウン状態の間、ロックダウンを知らせる。
受信器は、示されたサイクルの間はデータを入れず（ｐｕｓｈ）、また、それ自体のロックダウンの間はデータを取り出さない（ｐｏｐ）。ＦＩＦＯの奥行きは、どのチップが最初にロックするかによって変化するが、その変化は、ロックダウンサイクルの最大数によって制限される。特定のチップが１回の広域同期期間の間に判断するロックダウンサイクルの数は変化するが、それらは全て、同じ数の有効なサイクルを有している。特定のファブリック上の各チップが判断するロックダウンサイクルの総数は、同じであって、制限された許容誤差の範囲である。
【００７０】
集約装置コアクロックドメインは、ロックダウン持続時間のために完全に停止し、全てのフロップとメモリは、その状態を保持する。入力ＦＩＦＯは、拡張可能である。ロックダウンバスサイクルは、出力キューに挿入される。コアロックダウンが実行される正確な時期は、ＤＯＵＴ＿ＡＧ（ＤｉｇｉｔａｌＯＵＴ−ＡｎａｌｏｇＧｒｏｕｎｄ）バスプロトコルがロックダウンサイクルを挿入させる時期によって指図される。ＤＯＵＴ＿ＡＧロックダウンサイクルは、ＤｅｓｔＩＤバスに示されている。
【００７１】
メモリコントローラは、適当な数のサイクルのために、全てのフロップをロックダウンせねばならない。メモリコントローラにおけるシリコン領域への影響を削減するため、伝搬ロックダウンと呼ばれる技術が用いられる。
【００７２】
オン−ファブリックのチップツーチップ同期化は、あらゆる同期パルスで実行される。幾つかの同期エラー検出能力が幾つかのＡＳＩＣに存在するけれども、ファブリック同期エラーを検出し、有害なファブリックを取り除くことが非分散器の仕事である。チップツーチップ同期化は、ファブリック上でどの様なパケット流れも可能となる前に行なわれる連鎖式機能である。この同期設定は、集約装置からメモリコントローラへ流れ、セパレータへ行き、またメモリコントローラへ戻る。システムがリセットされた後、集約装置は、第１広域同期信号を待つ。受信後、各集約装置は、ＤｅｓｔＩＤバス上のローカル同期コマンド（値０ｘ２）を、各メモリーコントローラへ送信する。
【００７３】
分散処理機能は、ビットを着信データストリームから個々のファブリックに割り当てる。分散処理機能を導き出す際に、２つの項目が最適化された：
１．バックプレーン効率は、ＯＣ４８及びＯＣ１９２のために最適化されねばならない。
２．バックプレーン相互接続は、ＯＣ１９２オペレーションのために大きく変更されるべきではない。
【００７４】
これらは、分散器及び非分散器ＡＳＩＣに追加された多重通信回路用（ｍｕｘｉｎｇ）レッグに対して、交互に使用された（ｔｒａｄｅｄ−ｏｆｆ）。最適化に関係なく、スイッチは、ＯＣ４８とＯＣ１９２の両方用のメモリコントローラにおいて、同一のデータフォーマットを有さなければならない。
【００７５】
バックプレーン効率を効率よくするには、バックプレーンバスを形成する際に加えられるパッディング（ｐａｄｄｉｎｇ）を最小にする必要がある。ＯＣ４８のための１２ビットバックプレーンバスと、ＯＣ１９２のための４８ビットバックプレーンバスの場合、最適な割り当ての為には、転送用の未使用ビットの数が、（バイト数＊８）／バス幅と同一であることを必要とし、“／”は、整数の分数である。ＯＣ４８のためには、バスは、０，４又は８の未使用ビットを有することができる。ＯＣ１９２のためには、バスは、０，８，１６，２４，３２又は４０の未使用ビットを有することができる。
【００７６】
このことは、どのビットも１２ビットの境界の間を移動することができないか、あるいは、ＯＣ４８パッディングは、所定のパケット長さにとって最適ではないことを意味している。
【００７７】
ＯＣ１９２ｃに関し、最大帯域幅利用とは、各分散器が、同じ数のビットを受信せねばならないということを意味している（即ち、分散器へのビットインターリーブを意味する）。同一のバックプレーン相互接続と組み合わされた場合、これは、ＯＣ１９２ｃにおいて、各分散器は、１／４のビットを有する各分散器から来る、確実に正しい数のビットを有していなければならないことを意味する。
【００７８】
データビットをファブリックに割り当てるために、４８ビットのフレームが使用される。分散器の内部には、８０〜１００ＭＨｚでは３２ビット幅で書き込まれ、１２５ＭＨｚでは２４ビット幅で読み取られるＦＩＦＯがある。３つの３２ビットの語は、４つの２４ビットの語を生じる。２４ビットの語の各対は、４８ビットのフレームとして扱われる。ビットとファブリック間の割り当ては、ファブリックの数に左右される。
【００７９】
表１１：ビット分散処理機能
【表２】

【００８０】
次の表は、集約装置にて最初に読み取られ、セパレータにて最初に書き込まれるバイトレーンを示している。４つのチャネルは、Ａ、Ｂ、Ｃ、Ｄで表されている。全てのバスが完全に使用されるよう、異なるファブリックは、異なるチャネルの読取／書込オーダーを有している。
【００８１】
１つのファブリック−４０Ｇ
次の表は、集約装置のインターフェース読取オーダーを示している。
【００８２】
【表３】

【００８３】
２つのファブリック−８０Ｇ
【表４】

【００８４】
１２０Ｇ
【表５】

【００８５】
３つのファブリック−１６０Ｇ
【表６】

【００８６】
６つのファブリック−２４０Ｇ
【表７】

【００８７】
１２のファブリック−４８０Ｇ
【表８】

【００８８】
ギガビットトランシーバへのインターフェースは、トランシーババスを２つの分離したルートワードバスとデータバスとを有する分割バスとして使用する。ルートワードバスは、固定サイズ（ＯＣ４８の入口には２ビット、ＯＣ４８の出口には４ビット、ＯＣ１９２の入口には８ビット、ＯＣ１９２の出口には１６ビット）であり、データバスは、変更できるサイズのバスである。送信オーダーは、決められた位置にルートワードバスを常に有している。あらゆる分散処理構造は、１つのトランシーバを有しており、これは、全ての有効な構造において目的物と通話するために用いられるものである。そのトランシーバは、両方のルートワードバスを送り、データの送信を開始するために用いられる。
【００８９】
バックプレーンインターフェースは、バックプレーントランシーバへのインターフェースを用いて、物理的に行なわれる。入口及び出口両用のバスは、２つの半分部分から構成されていると考えられ、各々は、ルートワードデータを有している。
第１バスの半分部分がパケットを終了するなら、半分バスの２つは、個々のパケットに関する情報を有していてよい。
【００９０】
例えば、ファブリックローカル通話に行くＯＣ４８インターフェースは、２４データビットと２ルートワードビットを有している。このバスは、２ｘ（１２ビットデータバス＋１ビットルートワードバス）を有しているかの如く作用して用いられる。２つの半バスを、Ａ及びＢとする。バスＡは、第１データであって、その後にバスＢが続く。パケットは、バスＡとバスＢのどちらでも開始でき、バスＡとバスＢのどちらでも終了できる。
【００９１】
データビットルートワードビットをトランシーバビットにマッピングする際、バスビットはインターリーブされる。これによって、全てのトランシーバは、たとえ分散処理量が変化しても、同一の有効／無効状態を有さねばならないことを確実にする。ルートワードは、バスＢの前に現れるバスＡによって解釈される。
バスＡ／バスＢという概念は、チップ間にインターフェースを有することと密接に対応している。
【００９２】
全てのバックプレーンバスは、データの断片化をサポートしている。使用されたプロトコルは、（ルートワード中の最終セグメントによって）最後の転送を記録する。最終セグメントでない全ての転送は、たとえ偶数のバイトではなくても、バスの幅全体を利用する必要がある。いかなる一定のパケットも、そのパケットの全ての転送のため、同一の数のファブリックに分散されねばならない。パケットの送信中に、分散器の分散処理量が更新されるとしても、次のパケットの初めに分散処理が更新されるだけである。
【００９３】
ＡＳＩＣにおける送信機の各々は、各チャネルのための次のＩ／Ｏを有している：
８ビットデータバス、１ビットクロック、１ビットコントロール。
受信側では、ＡＳＩＣは、チャネルに次のものを受信する：
受信クロック、８ビットデータバス、３ビットステータスバス。
【００９４】
スイッチは、送信器を１〜３組のバックプレーンにマッピングすることによって、トランシーバを最適化し、各受信器は、１〜３組のバックプレーンを具える。これにより、構造に必要なトラフィックをサポートするのに十分な送信器だけが、完全な１組のバックプレーンネットを維持しながら、基板上に配備される。このような最適化の目的は、必要とされるトランシーバの数を削減することである。
【００９５】
最適化が行なわれる一方、どのようなときにも、２つの異なる分散処理量がギガビットトランシーバにおいて支持されねばならないということが尚求められる。このことは、トラフィックが、分散処理データから１つのファブリックへ、又、分散器の分散処理データから２つのファブリックへ同時にエンキュー（ｅｎｑｕｅｕｅ、キューに入れる）されることを可能とする。
【００９６】
バスの構造によっては、複数のチャネルは、１つの更に大きな帯域幅のパイプを形成するために、互いに連結される必要があるかもしれない（どのようなときにも、論理的な接続では１つ以上のトランシーバが存在する）。４倍ギガビットトランシーバは４つのチャネルを互いに連結することができるが、この機能は用いられない。代わりに、受信ＡＳＩＣが、１つのソースからのチャネル間での同期設定について役割を果たす。これは、総称同期アルゴリズムと同じ文脈である。
【００９７】
ギガビットトランシーバにおける８ｂ／１０ｂ符号化／復号化は、多数の制御事象がチャネルによって送られることを許容する。これらの制御事象は、Ｋ文字で表示され、符号化された１０ビット値に基づいて数字が付される。これらのＫ文字の幾つかは、チップセットで用いられる。使用されるＫ文字とその機能は、下記の表に示されている。
【００９８】
【表９】

【００９９】
パケットに対する分散処理構造によって、スイッチは、各バックプレーンチャネルにサポートされる、変更可能な数のデータビットを有する。トランシーバ一式の内部には、データが次のオーダーで満たされる：
Ｆ［ファブリック］＿［ｏｃ１９２ポート数］［ｏｃ４８ポート指定（ａ，ｂ，ｃ，ｄ）］［トランシーバ＿数］
【０１００】
チップセットは、ここに説明する一定の機能を実行する。ここで記載した機能の大半は、複数のＡＳＩＣでサポートされているため、それらをＡＳＩＣ毎に逐次記載することは、求められる機能の全体的な範囲についての明確な理解を妨げることになる。
【０１０１】
スイッチチップセットは、６４Ｋ＋６バイトの長さまでパケットと協働するように構成されている。スイッチの入口側には、複数のポート間で共有されるバスが存在する。大半のパケットに関して、それらは、パケットの初めからパケットの終わりまで、いかなる中断もなく送信される。しかしながら、この方法は、遅延感知トラフィックの遅延変動量を大きくすることになりかねない。遅延感知トラフィックとロングトラフィックとが、同一のスイッチファブリックに共存できるようにするため、ロングパケットという概念が導入されている。基本的に、ロングパケットによって、大量のデータは、キューイングロケーションに送られ、ソースを基にキューイングロケーションで集積され、ロングパケットの末端部が転送されると、直ちにキューに加えられる。ロングパケットの定義は、各ファブリック上のビット数に基づいている。
【０１０２】
イーサネット（登録商標）ＭＴＵがネットワーク全体に維持された環境でスイッチが作動している場合、ロングパケットは、４０Ｇｂｐｓより大きいサイズのスイッチには見受けられない。
【０１０３】
ワイドキャッシュライン共有メモリ技術は、セル／パケットをポート／優先キューに格納するために用いられる。共有メモリーは、セル／パケットを継続的に記憶するので、仮想的には、共有メモリーにおいて断片化及び帯域幅の無駄は存在しない。
【０１０４】
複数のキューが共有メモリーに存在する。それらは、宛先及び優先度毎に基づいている。同一の出力優先度とブレード／チャネルＩＤを有する全てのセル／パケットは、同一のキューに記憶される。セルは、常にリストの先頭からデキュー（キューから外す）され、待ち行列の末尾にエンキュー（キューに入れる）される。各セル／パケットは、出口ルートワードの一部と、パケット長さ、及び変更可能な長さのパケットデータによって構成されている。セル及びパケットは、継続的に記憶される。即ち、メモリーコントローラー自体は、ユニキャスト（アドレスを１つだけ指定する通信）接続用のセル／パケットの境界を認識しない。パケット長さは、ＭＣパケット用に記憶される。
【０１０５】
マルチキャストポートマスクメモリー６４Ｋｘ１６−ビットが、マルチキャスト接続用宛先ポートマスクを記憶するために用いられる、即ち、マルチキャストＶＣ毎に１つのエントリー（又は複数のエントリー）である。　マルチキャストＤｅｓｔＩＤＦＩＦＯによって示されるヘッドマルチキャスト接続のポートマスクは、スケジューリング検索のために内的に記憶される。ヘッド接続のポートマスクがクリアされ、新たなヘッド接続が提供されると、ポートマスクメモリーが検索される。
【０１０６】
ＡＰＳとは、自動保護スイッチングを表し、ＳＯＮＥＴ冗長基準のことである。スイッチにおいてＡＰＳの特徴をサポートするため、２つの異なるポートカードの２つの出力ポートが、略同一のトラフィックを送る。メモリーコントローラーは、ＡＰＳポート用に１組のキューを維持し、両方の出力ポートに同じデータを送る。
【０１０７】
メモリーコントローラーＡＳＩＣにおけるデータ２重化をサポートするため、複数のユニキャストキューの１つは各々、プログラム可能なＡＰＳビットを有している。ＡＰＳビットが１に設定されると、パケットは、両方の出力ポートにデキューされる。ＡＰＳビットがポート用にゼロに設定されると、ユニキャストキューは、正常モードで作動する。ポートがＡＰＳスレイブとして構成されると、ポートは、ＡＰＳマスターポートのキューから読み取る。ＯＣ４８ポートに関し、ＡＰＳポートは、隣接するポートカードの同じＯＣ４８ポート上に常に存在する。
【０１０８】
ファブリック間のメモリーコントローラーにおける共有メモリーキューは、クロックドリフト又は新たに挿入されたファブリックのために、同期から外れている（即ち、異なるメモリーコントローラーＡＳＩＣ間の同一のキューは、異なる奥行きを有している）。ファブリックキューを、任意の状態から有効かつ同期の状態に持っていくことは重要である。又、いかなる復元機構でもセルをドロップしないことが望ましい。
【０１０９】
リシンク（再同期）セルは、全てのファブリック（新たな及び既にあるもの）に一斉に送られて、リシンク状態に入る。ファブリックは、リシンクセルの前に受け取った全てのトラフィックを、キューリシンクが終わる前に、排出しようと試みる。しかし、リシンクセル後に受信したトラフィック（回線上のデータ情報量）は、リシンクセルが終了するまで排出されない。キューリシンクは２つの出来事の１つが生じると終了する。
１．時間切れのとき
２．新たなトラフィックの総量が（リシンクセルの後に受け取ったトラフィック）しきい値を越えたとき
【０１１０】
リシンクキューの終端にて、全てのメモリコントローラは、どのレフトオーバー旧トラフィック（リシンクセルのキューの前に受け取ったトラフィック）をも排出する。解放オペレーションは十分速く、いつリシンク状態に入ったかに拘わらず、全てのメモリコントローラはメモリの全てを一杯にすることができる。
【０１１１】
キューリシンクは、３つの全てのファブリックＡＳＩＣに与えられる。集約器はＦＩＦＯメモリがリシンクセルのキュー後に同様に排出することを確実にしなければならない。メモリコントローラは、キューイング及びドロッピング（データ送信時の損失）を実行する。分離器はトラッフィクをドロッピングし、これが起こったときに長さパージング（構文解析）状態マシンをリセットする。個々のＡＳＩＣにて、キューリシンクの詳細については、ＡＤＳチップを参照されたい。
【０１１２】
デキューについては、マルチキャスト接続（複数の端末に同じ内容を流すこと）は、独立した３２のトークンを各ポートに有し、各々は５０ビットのデータ又はまとまったパケットに相当する。先頭の接続及びその高優先キューのポートマスクは、各サイクル毎にＦＩＦＯ接続及びポートマスクメモリから読み出される。まとまったパケットは先頭接続の長さ領域に基づくマルチキャストキャッシュラインから隔てられている。先頭のパケットは、全ての宛先ポートに送られる。
ポートに対してゼロでないマルチキャストトークンが使用可能であるときは、８つのキュー排出器は、パケットを分離器に送る。次の先頭接続は、現在の先頭パケットがその全てのポートに送られるときにのみ、処理されるだろう。
【０１１３】
キューファブリックは、リシンクセルファブリックを介して直ぐに変換され、ポート領域当たりの優先の数が、各ポートがいくつの優先キューを有するかを示すのに用いられる。分散ＡＳＩＣは、ネットワークブレード上にある。
【０１１４】
以下の語は、スイッチの語彙にて、かなり特有の意味を有する。多くはどこかで述べられたが、これは１箇所にそれらを集めて定義することを企画している。
【０１１５】
【表１０】

【０１１６】
カウンタ送信と受信の関係は、図７に示される。
【０１１７】
本発明は例示の目的で前述の実施例に於いて、詳細に記載されてきたが、そのような詳細な記載は単にその目的の為であり、当該分野の専門家であれば、先述の特許請求の範囲によって記載されるようなもののほかにも、発明の精神と範囲から逸脱することなく、変形を成し得るものと理解されるべきである。
【図面の簡単な説明】
添付図は、本発明の好ましい実施例、及び本発明を実施する好ましい方法を示している。
【図１】
本発明のスイッチに於けるパケット分散処理を示す概略図である。
【図２】
ＯＣ４８ポートカードの概略図である。
【図３】
鎖状ネットワークブレードの概略図である。
【図４】
ファブリックＡＳＩＣに於ける相互接続を示す概略図である。
【図５】
ファブリックＡＳＩＣに於ける相互接続を示す概略図である。
【図６】
同期パルスの分配状況を示す概略図である。
【図７】
夫々、セパレータ及び非分散器の送受信シーケンスカウンタ間の関係に関する概略図である。
【図８】
本発明のスイッチの概略図である。

Claims

スイッチ制御プロセッサに繋がれたネットワークのスイッチであって、
ネットワークからパケットを受け取ると共に、ネットワークへパケットを送るポートカードと、
制御情報を与えるスイッチ制御プロセッサと、
スイッチ制御プロセッサ及びポートカードに繋がれていると共に、パケットをスイッチングするファブリックと、を具え、
該ファブリックは、スイッチ制御プロセッサから制御情報を受信するが、ポートカードの１つから各ファブリックが制御開始信号を受信する場合に、全てのファブリックは、同じ論理時間で制御情報を実行するだけであり、
各それぞれのファブリックは、それらが制御開始信号を受信する前、受信している最中、及び受信した後と、連続的にパケットを処理するスイッチ。
各ポートカードは分散器を含み、該分散器は、各ファブリックへ各パケットのそれぞれの部分を送る請求項１に記載のスイッチ。
全てのファブリックは互いに同期している請求項２に記載のスイッチ。
各ファブリックは、分散器からパケットフラグメントを受け取る集約装置と、集約装置によって受け取られたパケットフラグメントが記憶されるメモリコントローラと、メモリコントローラのパケットフラグメントをポートカードに送るセパレータとを有する請求項３に記載のスイッチ。
各ファブリックは、集約装置、そしてメモリコントローラ、次に各ファブリックのセパレータがそれぞれ同期に至らされることより、制御開始信号が受信された後で、他の全てのファブリックと同期する請求項４に記載のスイッチ。
制御開始情報は、キュー再同期パケットの状態で送られる請求項５に記載のスイッチ。
各ファブリックはキュー再同期状態に入り、ファブリックによってキュー再同期状態に入る前にファブリックによって受け取られた全てのパケットフラグメントは、デキューされ、キュー再同期状態に入った後にファブリックによって受け取られたどのパケットフラグメントも、所定のキュー再同期時間が経過した後にのみデキューされる請求項６に記載のスイッチ。
スイッチのポートカードでネットワークからパケットを受け取る工程と、
各パケットのフラグメントをスイッチのファブリックへ送る工程と、
ポートカードがパケットを受け取ることを続けているときに、制御情報をプロセッサからスイッチのファブリックへ配布する工程と
ネットワークを通じて、スイッチ制御プロセッサからのスイッチ制御信号をポートカードで受信する工程と、
ポートカードからファブリックへ制御開始信号を送る工程と、
全てのファブリックが同時に制御情報を実行するように、それぞれのファブリックが制御開始信号を受信した後のみ、各ファブリックで制御情報を実行する実行工程と、を具えるパケットをスイッチングする方法。
実行工程は、それぞれのファブリックが制御情報を実行する際に、各ファブリックによってキュー再同期状態に入る工程を具える請求項８に記載の方法。
キュー再同期状態に入る工程の後に、ファブリックが再同期状態に入った後にファブリックによって受け取られたどの新しいパケットフラグメントもデキューされる前に、ファブリックによって受け取られたどのパケットフラグメントもデキューするデキュー工程を具える請求項９に記載の方法。
デキュー工程は、どの新しいパケットもデキューする工程を含み、所定のキュー再同期時間が経過した後、又は受け取られた新しいパケットフラグメントもパケットフラグメントのプリセットキュー再同期しきい値に達する後のみに、該パケットをデキューする請求項１０に記載の方法。
制御情報を受け取る工程の前に、スイッチのファブリックに新しいファブリックを加える工程があり、制御情報を受け取る工程は、新しいファブリックの加入に関する情報を含む制御情報を受け取る工程を含む請求項１１に記載の方法。
パケットのフラグメントを送る工程は、ポートカードの分散器を用いて、各ファブリックの集約装置にパケットのフラグメントを送る工程を含む請求項１２に記載の方法。
キュー再同期状態に入る工程は、各ファブリックの集約装置、そしてメモリコントローラ、次にセパレータをそれぞれ同期させる工程を含む請求項１３に記載の方法。
制御開始情報を受け取る工程は、制御開始情報を有するキュー再同期パケットを受け取る工程を含み、該制御開始情報は送られている他のパケットにも挿入されている請求項１４に記載の方法。