JP4007939B2 - パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ - Google Patents

パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ Download PDF

Info

Publication number
JP4007939B2
JP4007939B2 JP2003130944A JP2003130944A JP4007939B2 JP 4007939 B2 JP4007939 B2 JP 4007939B2 JP 2003130944 A JP2003130944 A JP 2003130944A JP 2003130944 A JP2003130944 A JP 2003130944A JP 4007939 B2 JP4007939 B2 JP 4007939B2
Authority
JP
Japan
Prior art keywords
port
traffic
packet switch
switch
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003130944A
Other languages
English (en)
Other versions
JP2004336498A (ja
Inventor
奨 清水
良治 天海
健司 釘本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003130944A priority Critical patent/JP4007939B2/ja
Publication of JP2004336498A publication Critical patent/JP2004336498A/ja
Application granted granted Critical
Publication of JP4007939B2 publication Critical patent/JP4007939B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、インターネットに代表されるパケット網の構築に使用されるパケットスイッチ(イーサネットスイッチ、FDDIスイッチ等)を複数組み合わせて大容量化を図るスイッチクラスタの構成法に係わり、特に、電気式スイッチと光スイッチとを組み合わせたスイッチクラスタの構成法に関するものである。
【0002】
【従来の技術】
パケット網においては、パケットスイッチによってパケットが宛先に転送される。このパケットスイッチとしては、半導体を用いた電気式スイッチと、光デバイスを用いた光スイッチが開発されているが、通常広く使われているのは電気式スイッチである。代表的なものに、イーサネットスイッチがあり、さまざまな内部交換容量、外部伝送速度をもつ製品が市販されている。
パケットスイッチには、ブロッキングスイッチとノンブロッキングスイッチの二種類がある。前者は、ポート収容帯域の総和に対して交換容量が十分でなく、スイッチング動作においてパケットを損失する可能性がある。
後者は、ポート収容帯域の総和を超える十分な交換容量を持ち、スイッチングにおけるパケットの損失は発生しない。
多数の収容ポートを持つ大型のパケットスイッチでは、ノンブロッキング性を維持するため、高速かつ複雑な内部交換網を具備するが、その分ポート単価は高くなる。
一方、収容ポート数が概ね8から48以下の小型のパケットスイッチでは、ASIC(Application Specific Integrated Circuit)技術を応用することにより、比較的低コストでノンブロッキングスイッチを構成する事ができる。
【0003】
なお、本願発明に関連する先行技術文献としては以下のものがある。
【非特許文献1】
Cisco Systems, Cisco IOS Netflow Technology Datasheet,
http://www.cisco.com/warp/public/cc/pd/iosw/prodlit/iosnf_ds.htm
【非特許文献2】
S.Panchen,et,al.InMon Corporation's sFlow:A Method for Monitor ing Traffic in Switched and Routed Networks,IETF,RFC3176.
【非特許文献3】
P.Amsden,et,al.Cabletron's Light-weight Flow Admission Protocol Specification Version 1.0,IETF,RFC2124.特開平4−000508号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来の技術においては、数百から数千という多数のポート収容を実現する際に、コストと性能とはトレードオフの関係にある。
即ち、性能を重視し、ノンブロッキングスイッチを構成するとコストが上昇し、一方、コストを重視し、ブロッキングスイッチを構成すると性能が十分でないという問題点がある。
本発明は、前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、単純なブロッキングスイッチよりも性能が良く、大型のノンブロッキングスイッチに比べ安価なパケットスイッチクラスタ構成方法を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0005】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
本発明では、低コストでノンブロッキング性を具備する小型のパケットスイッチをクラスタ状に組み合わせ、ポート間トラフィックをグループ化してこれら小型のパケットスイッチの1筐体に収まるよう接続を切替えることを特徴とする。即ち、本発明では、安価なノンブロッキングスイッチを組み合わせ、そのノンブロッキング性を最大限生かすようにトラフィックの流れを調整することで、安価なブロッキングスイッチでありながら、トラフィックにローカリティがある場合はノンブロッキングスイッチとして動作させる。
【0006】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
なお、実施の形態を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
[本発明の基本概念]
図1は、本発明に基づくスイッチクラスタの最も基本的なタイプ(直列型)を示す模式図である。なお、モジュールの構成は直列型に限らず、後述する図2に示すようなツリー構造でもよい。
本実施の形態のスイッチクラスタの作用を図1に基づいて説明する。
図1に示すスイッチクラスタの構成要素は、トラフィック切替え装置1、直列に相互接続される複数のノンブロッキングスイッチ2、および各スイッチから帯域使用量の情報を収集し、トラフィック切替え装置を制御する切替え装置コントローラ6の3部分と、これらを接続するモジュール間リンク回線3、ユーザ収容リンク回線4、制御インターフェース5である。
ユーザ機器は、ユーザ収容リンクに接続されており、初期状態におけるトラフィック切替え装置1の内部接続は、図1に示すようにノンブロッキングスイッチのポートと1対1になっている。
モジュール間リンク3の容量は、発生し得るトラフィックの最大値に比較して小さい。
このため、単一のノンブロッキングスイッチに比較して安価なシステムが構築できるが、ユーザ収容リンク側からこの装置を見た場合、ノンブロッキング性は保証されず、モジュール間リンク3の輻輳によりデータ欠落の恐れがある。つまり初期状態においては、従来技術によるブロッキングスイッチと等価である。
【0007】
ここで、切替え装置コントローラ6は、以下のように作用する。
(1)各ノンブロッキングスイッチ2から得られる情報に基づき、トラフィックフローを把握する。
(2)送信元ポート/送信先ポートの組み合わせにより、各ノンブロッキングスイッチ内フローをグループ化し、ポート単位に集計する。この処理を、全ノンブロッキングスイッチ2について行う。
(3)前述の(2)で求めた情報に基づき、スイッチ内よりスイッチ外との通信量の多いポートと、通信量のもっとも少ないポートを選別する。
また、通信量の多いポートについては宛先アドレスに基づき、どのノンブロッキングスイッチ宛の通信が多いかを判別する。この処理を、全ノンブロッキングスイッチ2について行う。
(4)トラフィック切替え装置1を操作して、前述の(3)で求めた通信量の多いポートと、その宛先になっているノンブロッキングスイッチ2に属するポートのうちもっとも通信量の少ないポートとを交換する。この処理を、全ノンブロッキングスイッチ2について行う。
【0008】
前述の処理は、トラフィックの変動に応じて定期的に行う。制御ループは概ね数分単位が適当であるが、特に制限はない。
以上説明したように、トラフィックをグループ化する事により、トラフィックフローがノンブロッキングスイッチ2に収まる範囲において、従来のノンブロッキングスイッチと同等の性能を得ることができる。
また、トラフィックのローカリティ(局所性)が十分でなく、フローがノンブロッキングスイッチ2に収まらない場合においては、フローのうち帯域使用率の大きなものから順に割り当てを行う。この結果、モジュール間リンク3の使用率が下がるため、従来のブロッキングスイッチを上回る性能を得ることができる。
トラフィックフローの把握については、様々な方式が考えられるが、詳細は後述する。
また、トラフィック切替え装置1としては、電気的スイッチと光クロスコネクトスイッチが考えられるが、リンク速度が早くなるにつれて、後者を用いる方が安価に構成できる。この場合は、モジュールとして使用するノンブロッキングスイッチ2も光インターフェースを具備するものとする。
【0009】
[実施の形態]
以下、本発明の実施の形態を、図2に示すツリー型クラスタについて説明する。
図2は、本発明に基づくスイッチクラスタの最も基本的なタイプ(並列型)を示す模式図である。
図2の構成では、ノンブロッキングスイッチ2として、8ポートギガビットイーサネットスイッチを5台使用し、ユーザリンクの収容に4台、うち2ポートをモジュール間リンク3に使用するため、ユーザ収容リンクは、(8−2)×4=24本となる。
ポート番号では、各ノンブロッキングスイッチ2のポート7とポート8がモジュール間リンク3として使用され、ポート1から6がユーザ収容リンク4として使用される。
各ノンブロッキングスイッチ2におけるモジュール間リンク3とユーザ収容リンク4の比は、収容するユーザトラフィックのローカリティと、システムにかけ得るコストとのトレードオフとなる。
期待されるローカリティが強い場合には、モジュール間リンク3に要求される帯域は小さいため、比を大きく取る事ができ、結果として、ユーザ収容リンクのポート単価が低下する。
一方、期待されるローカリティが弱い場合には、モジュール間リンク3に割くべき帯域も大きくなり、ポート単価が上昇する。
【0010】
なお、本実施の形態において、ユーザ収容ポートより高速なアップリンクポートを持つスイッチをノンブロッキングスイッチ2として採用してもよい。
例えば、100Mbpsイーサネット48ポート、ギガビットイーサネット2ポート構成のスイッチ4台を図2のユーザ収容スイッチに適用すれば、ユーザ収容リンクは192本となる。
トラフィック切替え装置1としては、光クロスコネクトスイッチを使用する。これは、光クロスコネクトスイッチは、電気的なスイッチよりもシンプルで安価なためである。
また、各ノンブロッキングスイッチ2には、NetFlow(前述の非特許文献1参照)、sFlow(前述の非特許文献2参照)、あるいは、LFAP(前述の非特許文献3参照)などのフロー情報検出装置が組み込まれている。
トラフィック切替え装置1(ここでは、光クロスコネクトスイッチ)を制御する切替え装置コントローラ6の処理手順を図3に示す。
まず、ノンブロッキングスイッチ2(即ち、光クロスコネクトスイッチ)の初期化を行い、ユーザ収容側とスイッチ側を1:1に接続する(ステップ10)。メインループでは、フロー情報の収集(ステップ11)と、処理(ステップ12)ー(ステップ16)が主な手順である。
i番目(ここでは、1≦i≦4)のノンブロッキングスイッチ2のポートmからポートnへのトラフィックをTim,nと表すと、ステップ12の処理で生成されるトラフィック行列は、下記(1)式のように表される。
【0011】
【数1】
Figure 0004007939
・・・・・・・・・・・・・・・・・ (1)
ここで、あるポートj(1≦j≦6)について、下記(2)式のように定義する。
【0012】
【数2】
Figure 0004007939
・・・・・・・・・・・・・・・・・ (2)
【0013】
図4に、i番目のノンブロッキングスイッチ2のポート1(j=1)における、to_local、to_remote、from_local、および、from_remoteの位置を示す。
また、トラフィックグルーピングを行うための閾値となる転送量をTthreshとする。Tthreshは、例えば、回線使用率10%に相当する転送量に設定する。
前述のステップ13では、以下の処理を実行する。
Tj,totalの多い順にソートし、Tj,total>Tthreshを満たすものについて順に以下の判断をしていく。
(a)Tj,to_local<Tj,to_remote、かつ、Tj,from_local<Tj,from_remoteである場合、ポートjを移動対象とする。
(b)Tj,to_local>Tj,to_remote、かつ、Tj,from_local<Tj,from_remoteである場合、ポートjを移動対象としない。
(c)Tj,to_local<Tj,to_remote、かつ、Tj,from_local>Tj,from_remoteである場合、Tj,from_local<Tj,to_remoteであれば、ポートjを移動対象とする。
(d)Tj,to_local>Tj,to_remote、かつ、Tj,from_local>Tj,from_remoteである場合、ポートjを移動対象としない。
また、Tj,total<Tthreshであるポートには、「移動可能」のフラグを立てておく。
【0014】
次に、前述のステップ14では、以下の処理を実行する。
各ノンブロッキングスイッチ2で、「移動対象」となったポートのTj,to-remoteを構成するトラフィックフローの宛先アドレスを調べ、それらがもっとも多く属するノンブロッキングスイッチ2を移動先として選択する。この処理を、全ノンブロッキングスイッチ2に付いて実行する。
次に、前述のステップ15では、以下の処理を実行する。
トラフィック切替え装置1を操作して順にポートの移動を実行する。
即ち、i番目のノンブロッキングスイッチ2の「移動対象」ポートjを、移動先のn番目のノンブロッキングスイッチ2の「移動可能」ポートの中で最も通信量の少ないポートmと交換する。
この際、「移動対象」ポートjに関連付けられていたMACアドレスと、「移動可能」ポートmに関連付けられていたMACアドレスのエントリを全スイッチから消去する。
なお、前述の説明では、一度に一組ずつ交換する場合について説明したが、kれに限らず、例えば、Tj,totalの一番多いものを2ポート、一番少ないものを2ポートずつ取り出して「移動対象」、「移動可能」の組みを2組づつとしてもよい。
最後に、ステップ16で、次の制御ループに入るまで指定時間待機する。
【0015】
このように、本実施の形態では、各ノンブロッキングスイッチ2が、モジュール間リンク回線3の使用率を下げるようにポート収容の交換を行う。
これにより、全体のトラフィックのローカリティに対して適応的に組み替えが行われるため、各ノンブロッキングスイッチの使用率を高め、設備を効果的に使用することが可能となる。
特に、インターネットのように、トラフィックのローカリティが大きく、そのローカリティが予測不能な場合、従来のように単一の大型ノンブロッキングスイッチを設置することなく、小型のモジュール型スイッチを必要に応じて増減して使用することができるので、効率的な設備計画が可能となる。
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0016】
【発明の効果】
本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明のパケットスイッチクラスタ構成方法によれば、単純なブロッキングスイッチよりも性能が良く、大型のノンブロッキングスイッチに比べ安価なシステムを構成することが可能となる。
【図面の簡単な説明】
【図1】本発明に基づくスイッチクラスタの最も基本的なタイプ(直列型)を示す模式図である。
【図2】本発明に基づくスイッチクラスタの最も基本的なタイプ(ツリー型)を示す模式図である。
【図3】図1、図2に示す切替え装置コントローラの処理手順を示すフローチャートである。
【図4】図3で生成されるトラフィックフロー行列の一例を示す図である。
【符号の説明】
1…トラフィック切替え装置、2…ノンブロッキングスイッチ、3…モジュール間リンク回線、4…ユーザ収容リンク回線、5…制御インターフェース、6…替え装置コントローラ。

Claims (2)

  1. 複数のパケットスイッチをクラスタ状に接続するパケットスイッチクラスタ構成方法において、
    前記各パケットスイッチから、当該パケットスイッチのあるポートから他のポートへの通信量の情報であるトラフィックフロー情報を収集するステップ1と、
    前記ステップ1で収集したトラフィックフロー情報に基づき、各パケットスイッチの入力側ポートおよび出力側ポートの組み合わせ毎に通信量を集計するステップ2と、
    前記ステップ2で求めた情報に基づき、前記各パケットスイッチ毎に、ユーザ収納リンク回線に接続されたポートの中から、前記ユーザ収納リンク回線に接続された他のポートへの通信量より他のパケットスイッチに接続されたポートへの通信量が多いポートと、通信量が最も少ないポートとを選択するステップ3と、
    前記ステップ3で求めた通信量が多いポートについて、宛先アドレスに基づきどのパケットスイッチへの通信が多いかを判別するステップ4と、
    前記各パケットスイッチ毎に、前記ステップ3で求めた通信量が多いポートと、前記ステップ4で判別した当該通信量が多いポートの通信先となっているパケットスイッチに属するポートのうち最も通信量の少ないポートとを交換するステップ5とを備えることを特徴とするパケットスイッチクラスタ構成方法。
  2. 相互に接続される複数のパケットスイッチと、
    複数のユーザ収容リンク回線のそれぞれを、前記各パケットスイッチの入力側ポートおよび出力側ポートの一つに接続するトラフィック切替え装置と、
    前記トラフィック切替え装置を制御する切替え装置コントローラとを備えるパケットスイッチクラスタにおいて、
    前記切替え装置コントローラは、前記各パケットスイッチから、当該パケットスイッチのあるポートから他のポートへの通信量の情報であるトラフィックフロー情報を収集する手段1と、
    前記手段1で収集したトラフィックフロー情報に基づき、各パケットスイッチの入力側ポートおよび出力側ポートの組み合わせ毎に通信量を集計する手段2と、
    前記手段2で求めた情報に基づき、前記各パケットスイッチ毎に、前記ユーザ収納リンク回線に接続されたポートの中から、前記ユーザ収納リンク回線に接続された他のポートへの通信量より他のパケットスイッチに接続されたポートへの通信量が多いポートと、通信量が最も少ないポートとを選択する手段3と、
    前記手段3で求めた通信量が多いポートについて、宛先アドレスに基づきどのパケットスイッチへの通信が多いかを判別する手段4と、
    前記トラフィック切替え装置を制御し、前記各パケットスイッチ毎に、前記手段3で求めた通信量が多いポートと、前記手段4で判別した当該通信量が多いポートの通信先となっているパケットスイッチに属するポートのうち最も通信量の少ないポートとを交換させる手段5とを備えることを特徴とするパケットスイッチクラスタ。
JP2003130944A 2003-05-09 2003-05-09 パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ Expired - Fee Related JP4007939B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003130944A JP4007939B2 (ja) 2003-05-09 2003-05-09 パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003130944A JP4007939B2 (ja) 2003-05-09 2003-05-09 パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ

Publications (2)

Publication Number Publication Date
JP2004336498A JP2004336498A (ja) 2004-11-25
JP4007939B2 true JP4007939B2 (ja) 2007-11-14

Family

ID=33506247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003130944A Expired - Fee Related JP4007939B2 (ja) 2003-05-09 2003-05-09 パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ

Country Status (1)

Country Link
JP (1) JP4007939B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4717788B2 (ja) * 2006-11-28 2011-07-06 日本電信電話株式会社 クラスタノードおよびクラスタノード構成方法
JP5593546B2 (ja) * 2010-01-09 2014-09-24 株式会社アニメイト 仮想ショッピングモールシステム及び関連付装置並びにプログラム
CN105594170B (zh) 2013-08-09 2020-06-16 慧与发展有限责任合伙企业 交换机组件

Also Published As

Publication number Publication date
JP2004336498A (ja) 2004-11-25

Similar Documents

Publication Publication Date Title
US9781060B2 (en) Crossbar switch and recursive scheduling
Chao et al. High performance switches and routers
US20080267182A1 (en) Load Balancing Algorithms in Non-Blocking Multistage Packet Switches
US7961721B2 (en) Router, network comprising a router, method for routing data in a network
Beheshti et al. Buffer sizing in all-optical packet switches
US20060285548A1 (en) Matching process
Zilberman et al. Stardust: Divide and conquer in the data center network
US10461873B1 (en) Disaggregated hybrid optical transport network, internet protocol, and Ethernet switching system
US20050243852A1 (en) Variable packet-size backplanes for switching and routing systems
JP4007939B2 (ja) パケットスイッチクラスタ構成方法及びパケットスイッチクラスタ
US11271868B2 (en) Programmatically configured switches and distributed buffering across fabric interconnect
US8315254B2 (en) Bandwidth management switching card
Mirjalily et al. An approach to select the best spanning tree in Metro Ethernet networks
CN1284336C (zh) 基于环的大容量可扩展分组交换网络结构
Hassen et al. Congestion-aware multistage packet-switch architecture for data center networks
CN1240564A (zh) 交换结构
EP3843344A1 (en) Multi-stage switching topology
Wiklund et al. Design of an Internet core router using the SoCBUS network on chip
Smiljanic Load balancing mechanisms in Clos packet switches
Sapountzis et al. Benes Fabrics with Internal Backpressure: First Work-in-Progress Report
Smiljanic Bandwidth reservations by maximal matching algorithms
Shen et al. DbDest: an efficient, high-performance, fault-tolerant fabric for broadband ISDN
Kleban et al. Performance evaluation of selected packet dispatching schemes for the CBC switches
CN116016332A (zh) 一种分布式拥塞控制系统及方法
Saito et al. A high‐capacity switching method for IP datagrams with multistage networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110907

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120907

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130907

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees