JP5159889B2 - データ・センタ・イーサネット・アーキテクチャの仮想レーン上での適応輻輳制御のための方法、システムおよびコンピュータ・プログラム製品 - Google Patents

データ・センタ・イーサネット・アーキテクチャの仮想レーン上での適応輻輳制御のための方法、システムおよびコンピュータ・プログラム製品 Download PDF

Info

Publication number
JP5159889B2
JP5159889B2 JP2010526237A JP2010526237A JP5159889B2 JP 5159889 B2 JP5159889 B2 JP 5159889B2 JP 2010526237 A JP2010526237 A JP 2010526237A JP 2010526237 A JP2010526237 A JP 2010526237A JP 5159889 B2 JP5159889 B2 JP 5159889B2
Authority
JP
Japan
Prior art keywords
packet
absolute
threshold
arrival rate
relative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010526237A
Other languages
English (en)
Other versions
JP2010541351A (ja
Inventor
デクサティス、カシマール
グレッグ、トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2010541351A publication Critical patent/JP2010541351A/ja
Application granted granted Critical
Publication of JP5159889B2 publication Critical patent/JP5159889B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/25Flow control; Congestion control with rate being modified by the source upon detecting a change of network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/29Flow control; Congestion control using a combination of thresholds

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Description

商標
IBM(IBM社の登録商標)は、米国ニューヨーク州アーモンク(Armonk,New York,U.S.A.)のInternational Business Machines Corporationの登録商標である。本願明細書で用いられる他の名称は、International Business Machines Corporationまたは他の企業の登録商標、商標もしくは製品名であることもある。
発明の分野
本発明は、全般的にトラフィック制御に関し、特に適応輻輳制御に関する。
データ・センタ・イーサネット(DCE:Data Center Ethernet)は、好ましい集合ファブリック(convergence fabric)またはあらゆるタイプのデータ・センタ・トラフィックとしてイーサネット(R)を位置づける目的で、既存ネットワークに対する変更を提案する、新たな業界標準である。最近の研究で、イーサネットが、図1に示されているようにデータ・センタにおいてI/Oを統合する集合ファブリックであることが分かっている。この統合によって、プラットフォーム・アーキテクチャが単純化され、プラットフォームの全体的な費用が削減されることが期待されている。統合に関する提案のさらなる詳細は、http://www.ieee802.org/1/files/public/docs2005/new−wadekar−virtual%20−links−0305.pdfにあると思われる、「Proposal for Traffic Differentiation in Ethernet Networks」に記載されている。
DCE(エンハンスド・イーサネットおよび低レイテンシ・イーサネットとも呼ばれる)に関しては、リンク層におけるクレジット・ベースのフロー制御の追加、輻輳検出およびデータ速度調節、ならびにサービス品質差別化を伴う複数仮想レーンの追加を含む、大きな変更が提案されている。こうした機能が、DCEレベルより上位に存在する伝送制御プロトコル/インターネット・プロトコル(TCP/IP:Transmission Control Protocol/Internet Protocol)に影響を及ぼさないということに注目しなくてはならない。さらに、DCEは、TCP/IPのオーバーヘッドを伴わずに動作するよう意図されているということにも注目すべきである。これは、オフロード処理もアクセラレータも必要としない、大幅に簡素化された低費用の手法を提供する。
DCEの実装には、サーバ、ストレージ制御ユニット、およびイーサネット・スイッチにおいて、恐らく10ギガビットのデータ速度の能力がある新たなDC互換のネットワーク・インターフェース・カードが必要となる。これから数年間にわたる、集合型(converged)DCEネットワークへの移行を促進するために、高性能サーバ用の低レイテンシ・イーサネット、および他の様々なプロトコルのDCEファブリックへのカプセル化を含む、サーバ関連アーキテクチャの取り組みが行われている。この、データ・センタ・ネットワークの新たなアーキテクチャには、多数の技術的課題がある。
TCP/IPのもとで動作している従来のイーサネット・ネットワークは、特定の条件下でデータ・パケットを廃棄することを許可されている。こうしたネットワークは、「ベスト・エフォート」または損失のあるネットワークとして既知である。非同期転送モード(ATM:Asynchronous Transfer Mode)などの他のプロトコルを用いるネットワークも、この手法を用いる。このようなネットワークは、廃棄パケットを頼りに輻輳を検出する。TCP/IPを使用するネットワークでは、TCP/IPソフトウェアが、当該ネットワークに対して一種のエンド・ツー・エンド・フロー制御を提供する。しかし、パケット廃棄からの回復は、大きなレイテンシ・ペナルティを招き得る。さらに、廃棄されたパケットによって既に使用されたネットワーク・リソースもすべて無駄になる。企業データ・センタ環境が、パケットが破損していない限りはパケットを廃棄しない損失のないプロトコルを必要とするということは、十分に定着している。さらに、企業データ・センタ環境は、ファイバ・チャネル・プロトコル、InfiniBandなど、はるかに高速な回復メカニズムを必要とする。損失のないネットワークは、バッファ・オーバーフローを防止し、破損パケットを回復する応答時間の高速化もたらし、損失によって引き起こされるスループットの限界の問題がなく、全帯域幅で遅延なくバースト・トラフィック・フローがネットワークに入ることを可能にする。こうした機能が、DCEレベルより上位のTCP/IPに影響を及ぼさないということに注目しなくてはならない。こうした懸案事項に対処するために、何らかの他の種類のフロー制御および輻輳解決が必要とされている。
クレジット・ベースのフロー制御を使用するネットワークは、輻輳「ホット・スポット」を生じやすい。この問題は図2〜5に示されている。この図面に示されている例は、スイッチ・ファブリックを3層のカスケード・スイッチング(スイッチ層1、スイッチ層2、およびスイッチ層3)ならびにその関連したトラフィック・フローと共に示す。説明を簡潔にするために3つのスイッチ層が示されているが、当然のことながら、スイッチ・ファブリックは、はるかに多くのスイッチ層を含んでもよい。
図2では、トラフィックは輻輳なしでスムーズに流れる。しかし、図3に示されているように、全入力トラフィックのうち、十分な断片が同じ出力ポートをターゲットにすると、その出力リンクが飽和して「ホット・スポット」210を生じ得る。これにより、リンクに供給しているスイッチ上のキューが満杯になる。このトラフィック・パターンが持続すると、スイッチ上の利用可能なバッファ領域が枯渇し得る。これによって今度は、前のスイッチング段階がそのバッファ領域を飽和させることになり、図4に示されているようにさらなるホット・スポット220および230を生じ得る。この輻輳が、最終的にネットワークの入力ノードまで逆流していき、ホット・スポット240〜256を生じることもある。これは、輻輳拡大または木状飽和(tree saturation)と呼ばれる。1つ以上の飽和木(saturation tree)が同時に発生し、ネットワークを非常に速く拡大することもある。完全にできた飽和木(saturate tree)では、すべてのパケットがネットワークを通過するときに飽和したスイッチを少なくとも1つ越えなければならない。結果として、そのネットワークは全体としてスループットの破局的な損失を被ることになり得る。
この問題には、いくつかの解決策が提案されている。提案されている解決策の1つは、スイッチにて見込まれるバッファ・オーバーフロー状態を検出し、メッセージを宛先へ向け下流へ、次にもとのソースへとブロードキャストして、データ速度の抑制をリクエストすることを含む。この手法は時間がかかり、さらに、バッファが飽和に近づいているときの検出を、スイッチにおけるプリセット閾値に頼る。トラフィックのバーストによって、急激にスイッチが閾値レベルを上回り、さらに再び即座におさまることもある。トラフィック量に基づいた単一の閾値は、こうした状況下において十分に速く補正を行うことができない。
その他多数の従来スキームは、輻輳地点の場所について何らかの事前知識を必要とする。こうしたスキームは、予測可能なトラフィック・パターンにのみ効果があり、トラフィック・パターンが予測不可能な混合トラフィックには向かない。
もう1つの一般的な回避策は、ホット・スポットの形成を回避するために、余分の帯域幅を配分すること、またはネットワークをオーバー・プロビジョンすることを含む。しかし、ネットワーク・ノードの数が増加する一方でオーバー・プロビジョンは十分に拡大せず、さらに、データ速度は10ギガビット/秒に近づくため、高価な解決策である。さらに、DCEは、種々のデータ・トラフィック・パターン(音声、ストレージ、ストリーミング・ビデオ、およびその他の企業データ)を単一のネットワーク上へ混合することを目的としている。これによって、トラフィック・パターンの予測可能性が低下することから、DCEがホット・スポット輻輳に直面する可能性がさらに高くなる。
例示的実施形態によれば、データ・センタ・イーサネット(DCE)ネットワークにおける適応輻輳制御のための方法、システムおよびコンピュータ・プログラム製品が提供される。複数パケットが、DCEネットワーク内の少なくとも1つの仮想レーンを介して受信される。或る期間にわたって、絶対または相対パケット到着速度(absolute or relative packet arrival rate)が計算される。絶対または相対パケット到着速度が、少なくとも第1の閾値および第2の閾値と比較される。絶対または相対パケット到着速度が第1の閾値を上回ると、パケット送信速度が下げられる。絶対または相対パケット到着速度が第2の閾値を下回ると、パケット送信速度が上げられる。
以下、次の図面を参照しながら、単なる一例として好適な実施形態について記載する。
データ・センタ・イーサネット(DCE)ネットワークにおけるトラフィックの、提案されている統合を示す。 従来のクレジット・ベースのフロー制御ネットワークにおいて生じる輻輳「ホット・スポット」を示す。 従来のクレジット・ベースのフロー制御ネットワークにおいて生じる輻輳「ホット・スポット」を示す。 従来のクレジット・ベースのフロー制御ネットワークにおいて生じる輻輳「ホット・スポット」を示す。 従来のクレジット・ベースのフロー制御ネットワークにおいて生じる輻輳「ホット・スポット」を示す。 例示的実施形態による適応輻輳制御の方法を示す。 パケットの送信と、パケットの受信との間のオフセットの変化を示す。 別の実施形態による適応輻輳制御の方法を示す。 例示的実施形態による適応輻輳制御の例示的システムを示す。 例示的実施形態によるコンピュータ・プログラム製品を使用した適応輻輳制御を実装する例示的システムを示す。
例示的実施形態によれば、大型のデータ・センタ・イーサネット(DCE)ネットワーク内のリンク層における信頼性が改善される。一実施形態では、スイッチ・バッファ内に蓄積したパケットの総数が単純に集計されるのではなく、パケット到着速度が動的に計算されて閾値と比較される。これによって、見込まれる輻輳状態をより迅速に検出し、適宜対応できるようにする。この手法はさらに、輻輳が徐々に形成される場合に、パケット送信速度の抑制が必要になるまで待機することもできる。この手法はさらに、輻輳がなくなった後、より迅速に回復を実行できるようにし、リンクはその完全稼働率まで再び上げられる。
例示的実施形態によれば、廃棄パケットを防止するために、各パケットには、パケット・シーケンス番号(PSN:packet sequence number)が割り当てられる。一実施形態では、PSNは、オプションの3ビット・セッション識別子と共に、パケット・ヘッダに予約されている24ビットを含むとよい。この番号を割り当てて、リンクが再確立されると有効PSNのシーケンスを再初期化するスキームは、例えば、参照によって本願明細書に引用したものとする、本発明の譲受人に譲渡された米国特許出願第11/426421号に記載されている。
図6は、例示的実施形態による、DCEネットワークにおける適応輻輳制御の方法を示す。ステップ310で、パケットが、仮想レーンを介してスイッチにて受信される。ステップ320で、パケットが有効PSNを有するかどうかが判断される。この判断は、例えばスイッチ(図9に示されているスイッチ510aなど)において下されるとよい。パケットが有効PSNを有しなければ、ステップ325でエラーが生成され、プロセスはステップ310へ戻る。パケットが有効PSNを有すれば、ステップ330で、カウンタ・タイマが実行されているかどうかが判断される。実行されていなければ、ステップ340で、カウンタ・タイマが始動され、1インクリメントされる。カウンタ・タイマが実行されていれば、ステップ345で1インクリメントされる。カウンタ・タイマは、有効PSNを有する連続するパケットそれぞれが到着したときにインクリメントされる。ステップ350で、絶対パケット到着速度が計算される。パケット到着速度のみが測定されるため、この時点では一連のPSNを検査する必要はない。絶対パケット到着速度は、一定の時間間隔または可変長の時間窓にわたって計算されるとよい。ステップ360〜368で、絶対パケット到着速度が様々な閾値と比較される。この比較はスイッチにおいて実行されるとよい。ステップ362で絶対パケット到着速度が閾値レベルを上回り、パケット到着速度が急速に上がっていることを示すと判断されると、メッセージが、例えばスイッチからソース・ノード(例えば図9に示されているソース・ノード520)へ送られ、ステップ372でパケット送信速度が減速される。ステップ364で、絶対パケット到着速度が低い方の閾値を上回り、パケット到着速度が徐々に上がっていることを示すと判断されると、ステップ374で、所定時間待機した後に入力が減速されるとよい。このプロセスは反対も可能であり、それによって、ステップ366で絶対パケット到着速度が所定の閾値を下回り、パケット到着速度が徐々に下がっていることを示すと判断されると、ステップ376で、コマンドがソース・ノードへ送信され、所定時間後にパケット送信速度を上げることができる。ステップ368で、絶対パケット到着速度が低い方の閾値を下回り、パケット到着速度が急速に下がっていることを示すと判断されると、ステップ378で、ソース・ノードがパケット送信速度を急速に上げさせられるとよい。
別の実施形態によれば、閾値との比較に用いる相対パケット到着速度を判断するために、カウンタの代わりにDCEパケット・ヘッダのタイム・スタンピングが使用されてもよい。図7は、様々なパケットについて、パケットが送信された時間から、それが受信されるまでのオフセットに、どのように経時的変化(差分)があり得るかを示す。パケット送信時間とパケット受信時間との間のオフセットが或る期間にわたって測定され、相対パケット送信速度を示すものとして使用されるとよい。オフセットは、送信時(例えばスイッチから)にパケット・ヘッダに付加されパケットの送信時間を示すタイムスタンプを検出し、パケットの受信時間(例えば別のスイッチでの)を判断することによって測定されるとよい。オフセットは、送信時間と、受信時間との間の時間の差である。レイテンシを考慮するために、タイムスタンプは、パケットがノード、例えばスイッチを出るときにパケットのヘッダに付加されるとよい。オフセットの変化は、パケット到着速度が、或る期間にわたって上がっているか、または下がっているかを示すとよい。相対パケット到着速度は、パケット送信時間と、パケット到着時間との間のオフセットに基づき計算されるとよく、計算された相対パケット到着速度と、図8を参照して以下で説明する様々な閾値とを比較することによって、パケット到着速度を上げる、または下げる措置がとられるとよい。これによって、ネットワーク内の中央マネージャが、輻輳地点を、または単にソース・パケット注入速度が遅いのかどうかを、判断することができるようになる。送信時間と到着時間との間のオフセットのみが相対パケット到着速度の計算に使用されるため、この実施形態は、ネットワーク内のどこにおいても(ソース、宛先および中間ノードおよびスイッチを含め)受信および送信クロックの同期化を必要としない。したがって、パケットの送信とパケットの受信との間の時間のオフセットが負の値ということもあり得る。
図8は、例示的実施形態による、DCEネットワークにおけるタイムスタンプの手法を使用した適応輻輳制御の方法を示す。ステップ410で、パケットが仮想レーンを介しスイッチにて受信される。ステップ420で、上記のように、パケットが送信された時間およびパケットの受信時間からオフセットが判断される。ステップ440で、或る期間にわたるいくつかのパケットの送信時間と到着時間との間のオフセットに基づいて、相対パケット到着速度が計算される。相対パケット到着速度は、一定の時間間隔または可変長の時間窓にわたって計算されればよい。ステップ450〜468で、図6に示されているプロセスと同様に、相対パケット到着速度が様々な閾値と比較される。この比較はスイッチにおいて実行されるとよい。ステップ462で相対パケット到着速度が閾値レベルを上回り、パケット到着速度が急速に上がっていることを示すと判断されると、メッセージが、ソース・ノード(例えば図9に示されているソース・ノード520)へ送られ、ステップ472でパケット送信速度が減速される。ステップ464で、相対パケット到着速度が低い方の閾値を上回り、相対パケット到着速度が徐々に上がっていることを示すと判断されると、ステップ474で、所定時間待機した後に入力が減速されるとよい。このプロセスは反対も可能であり、それによって、ステップ466で相対パケット到着速度が所定の閾値を下回り、パケット到着速度が徐々に下がっていることを示すと判断されると、ステップ476で、コマンドがソース・ノードへ送信され、所定時間後にパケット送信速度を上げることができる。ステップ468で、相対パケット到着速度が低い方の閾値を下回り、相対パケット到着速度が急速に下がっていることを示すと判断されると、ステップ478で、ソース・ノードがパケット送信速度を急速に上げさせられるとよい。
例示的実施形態によれば、図6および図8に図示されているプロセスは、スイッチにおいて、制御論理によって、または、コンピュータ・プログラム製品に含まれCD−ROMディスクもしくはフレキシブル・ディスクなどのコンピュータ可読媒体上に符号化された命令を実行するコンピュータ・プロセッサによって、あるいはその両方によって実装されてもよい。
上述の手法は、各スイッチにて、ネットワーク内のすべてのノードに対し実装されるとよい。そうすることで、輻輳をもたらし得るトラフィックのバーストにも、より迅速に対処することができる。さらに、輻輳がなくなったときの回復をより迅速に実行することができる。
図9は、例示的実施形態による適応輻輳制御の例示的システムを示す。図9に示されているように、ソース・ノード520と、宛先ノード530との間で、スイッチ510aおよび510b、ならびにリンク540のDCEファブリック経由でパケットが送信される。説明を簡潔にするために、図9には2つのスイッチが示されているが、当然のことながら、はるかに多くのスイッチがあってもよい。上記のように、スイッチ510aおよび510bにおいてパケット到着速度が測定/計算され、複数の閾値と比較されればよい。その結果として、スイッチは、必要に応じてソース・ノード(または、トラフィックが宛先ノードから送られていれば宛先ノード)にパケット送信速度を上下させるとよい。
上記のように、異なる速度のトラフィックの増減に対して、別々の閾値レベルが設定されるとよい。例えば、トラフィック送信速度が徐々に上がっている場合には、ソースによる入力データ速度の減速をリクエストする前に、間がおかれるとよい。同じく、トラフィック送信速度が徐々に下がっている場合には、ソースに入力データ速度の加速をリクエストする前に、間がおかれるとよい。このように、最大量のデータができるだけ長くパイプラインに保たれ、利用可能なネットワーク帯域幅がより効率的に使用される。パケット到着速度および閾値に応じて、最大許容受信バッファ配分が調整されるとよい。さらに、例示的実施形態によれば、単にパケットの総数を測定するのに比べて、輻輳状態からのより迅速な回復が実現され得る。これにより、輻輳木(congestion tree)の形成の事前防止が可能になり、ネットワーク・スループットおよび効率性が最適化される。
さらに、この手法は、共通高速接続でいくつかの仮想トラフィック・フローを送信する、レーン制システム上で実装されるとよい。こうすることで、1つの仮想レーン上のトラフィックのバーストが、同じ物理接続を共有する他のトラフィック・ストリームに対し輻輳をもたらすことがなくなる。このロード・バランシングは、混合トラフィック・タイプに特に有益である。さらに、受信バッファ・サイズの配分は、パケット到着速度の増減に基づいて調整されるとよい。輻輳のレベルに応じて異なる仮想レーン間にトラフィックを動的に配分するよう、フィードバック・ループを実装することさえも可能である。
上述の通り、図6および図8に図示されているプロセスは、スイッチにおいて、制御論理によって、または、コンピュータ・プログラム製品に含まれCD−ROMディスクもしくはフレキシブル・ディスクなどのコンピュータ可読媒体上に符号化された命令を実行するコンピュータ・プロセッサによって、あるいはその両方によって実装されるとよい。コンピュータ・プログラム製品上のプロセスを実装する例示的システムが、図10に示されている。
図10は、例示的実施形態による、コンピュータ・プログラム製品を使用した適応輻輳制御を実装する例示的システムを示す。システムは、入出力インターフェース630経由で信号保持媒体640と交信しているコンピュータ600を含む。信号保持媒体640は、上述の適応輻輳制御技術を実行する命令を含むとよく、これは、例えば、書き込み不可能なストレージ媒体(例えば、CD−ROMドライブにより読み取り可能なCD−ROMディスクなど、コンピュータ内の読み取り専用メモリ・デバイス)上に恒久的に格納された情報、書き込み可能なストレージ媒体(例えば、ディスケット・ドライブ内のフレキシブル・ディスクまたはハード・ディスク・ドライブ)上に格納された変更可能な情報、インターネットなど無線およびブロードバンド通信ネットワークなどを含むコンピュータまたは電話ネットワークを介してなど、通信媒体によりコンピュータに伝達される情報などとして実装される。
コンピュータは、プロセッサ610を含み、プロセッサ610は、例えば信号保持媒体640上に含まれ入出力インターフェース630経由でコンピュータに伝達される、適応輻輳制御技術を実行する命令を実行する。適応輻輳制御を実行する命令は、メモリ620に格納されても、または信号保持媒体640上に保持されてもよい。
本発明について例示的実施形態を参照して記載してきたが、当業者であれば当然のことながら、本発明の範囲から逸脱することなく様々な変更が加えられ、その構成部品の代わりに等価物が用いられてもよい。さらに、本発明の本質的な範囲から逸脱することなく、本発明の教示に特定の状況または構成要素を適合させるよう多数の調節が行われてもよい。したがって、本発明は、本発明の実施に関して考えられる最良の形態として開示された特定の実施形態に限定されず、本発明は、添付の特許請求の範囲に記載の範囲内に入るすべての実施形態を含むものとする。

Claims (11)

  1. データ・センタ・イーサネット・ネットワーク(DCEネットワーク)における適応輻輳制御の方法であって、
    前記DCEネットワーク内の少なくとも1つの仮想レーンを介してパケットを受信するステップと、
    或る期間にわたって絶対または相対パケット到着速度を計算するステップと、
    前記絶対または相対パケット到着速度と、少なくとも第1の閾値および第2の閾値とを比較するステップと、
    前記絶対または相対パケット到着速度が前記第1の閾値を上回れば、パケット送信速度を下げるステップと、
    前記絶対または相対パケット到着速度が前記第2の閾値を下回れば、前記パケット送信速度を上げるステップと、
    前記絶対または相対パケット到着速度と、第3の閾値とを比較するステップと、
    前記絶対または相対パケット到着速度が、前記第3の閾値を上回るが前記第1の閾値を下回っていれば、前記パケット送信速度を、所定時間後に下げるステップと、
    を含む方法であって、
    前記絶対パケット到着速度は、
    受信されたパケットそれぞれが有効パケット・シーケンス番号を有するかどうかを判断し、
    前記受信されたパケットが有効パケット・シーケンス番号を有すれば、カウンタをインクリメントすること
    によって計算され、
    前記絶対パケット到着速度は、前記期間にわたる前記カウンタのインクリメントに基づき計算される、方法。
  2. 前記相対パケット到着速度は、
    受信されたパケットが送信された時間を示す、前記パケットそれぞれのタイムスタンプを検出し、
    前記パケットの受信時間および前記パケットが送信された前記時間から、オフセットを判断すること
    によって計算され、
    前記相対パケット到着速度は、前記期間にわたる複数パケットの受信におけるオフセットに基づき計算される、
    請求項1に記載の方法。
  3. 前記絶対または相対パケット到着速度は、一定期間または可変期間にわたって計算される、請求項1に記載の方法。
  4. 前記絶対または相対パケット到着速度と、第4の閾値とを比較するステップと、
    前記絶対または相対パケット到着速度が、前記第4の閾値を下回るが前記第2の閾値を下回っていなければ、前記パケット送信速度を、所定時間後に上げるステップ
    をさらに含む、請求項1に記載の方法。
  5. 前記ステップは、仮想レーンごとのパケットに関して実行される、請求項1に記載の方法。
  6. 前記少なくとも1つの仮想レーン上の前記計算されたパケット到着速度に応じて、他の仮想レーン上のパケット送信速度を動的に上げるか、または下げるステップをさらに含む、請求項1に記載の方法。
  7. データ・センタ・イーサネット・ネットワークにおける適応輻輳制御のシステムであって、
    前記DCEネットワーク内の少なくとも1つの仮想レーンを介してパケットを送信する送信機と、
    前記送信機から前記送信されたパケットを受信する受信機と、
    前記送信機と、前記受信機との間に入れられるスイッチであって、前記スイッチは、前記送信機から前記パケットを受信して、或る期間にわたって絶対または相対パケット到着速度を計算し、前記絶対または相対パケット到着速度と、少なくとも第1の閾値および第2の閾値とを比較して、前記絶対または相対パケット到着速度が前記第1の閾値を上回れば、前記スイッチはパケット送信速度を下げ、前記絶対または相対パケット到着速度が前記第2の閾値を下回れば、前記スイッチは前記パケット送信速度を上げ、前記絶対または相対パケット到着速度と、第3の閾値とを比較し、前記絶対または相対パケット到着速度が、前記第3の閾値を上回るが前記第1の閾値を下回っていれば、前記パケット送信速度を、所定時間後に下げる、前記スイッチと、
    を含むシステムであって、
    前記スイッチはさらに、受信されたパケットそれぞれが有効パケット・シーケンス番号を有するかどうかを判断し、前記受信されたパケットが有効パケット・シーケンス番号を有すれば、前記スイッチはカウンタをインクリメントし、前記スイッチは、前記期間にわたる前記カウンタのインクリメントに基づいて、前記絶対パケット到着速度を計算する、システム。
  8. 前記スイッチは、受信されたパケットが送信された時間を示す、前記パケットそれぞれのタイムスタンプを検出し、前記パケットの受信時間および前記パケットが送信された前記時間からオフセットを判断し、前記相対パケット到着速度を計算するステップは、前記期間にわたる複数パケットの受信におけるオフセットに基づく、請求項に記載のシステム。
  9. 前記絶対または相対パケット到着速度は、一定期間または可変期間にわたって計算される、請求項に記載のシステム。
  10. 前記スイッチはさらに、前記絶対または相対パケット到着速度と、第4の閾値とを比較し、前記絶対または相対パケット到着速度が、前記第4の閾値を下回るが前記第2の閾値を下回っていなければ、前記スイッチは、前記パケット送信速度を、所定時間後に上げる、請求項に記載のシステム。
  11. データ・センタ・イーサネット・ネットワークにおける適応輻輳制御のためのコンピュータ・プログラムであって、前記コンピュータ・プログラムが、前記コンピュータに、請求項1〜のいずれか1項に記載の方法の各ステップを実行させる、コンピュータ・プログラム。
JP2010526237A 2007-09-26 2008-09-04 データ・センタ・イーサネット・アーキテクチャの仮想レーン上での適応輻輳制御のための方法、システムおよびコンピュータ・プログラム製品 Active JP5159889B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/861,564 US7821939B2 (en) 2007-09-26 2007-09-26 Method, system, and computer program product for adaptive congestion control on virtual lanes for data center ethernet architecture
US11/861,564 2007-09-26
PCT/EP2008/061715 WO2009040229A1 (en) 2007-09-26 2008-09-04 Method, system, and computer program product for adaptive congestion control on virtual lanes for data center ethernet architecture

Publications (2)

Publication Number Publication Date
JP2010541351A JP2010541351A (ja) 2010-12-24
JP5159889B2 true JP5159889B2 (ja) 2013-03-13

Family

ID=40280527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010526237A Active JP5159889B2 (ja) 2007-09-26 2008-09-04 データ・センタ・イーサネット・アーキテクチャの仮想レーン上での適応輻輳制御のための方法、システムおよびコンピュータ・プログラム製品

Country Status (11)

Country Link
US (1) US7821939B2 (ja)
EP (1) EP2195980B1 (ja)
JP (1) JP5159889B2 (ja)
KR (1) KR101104004B1 (ja)
CN (1) CN101803316B (ja)
BR (1) BRPI0816013B1 (ja)
CA (1) CA2699325C (ja)
IL (1) IL204679A (ja)
MX (1) MX2010003014A (ja)
TW (1) TWI429242B (ja)
WO (1) WO2009040229A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7839777B2 (en) * 2007-09-27 2010-11-23 International Business Machines Corporation Method, system, and apparatus for accelerating resolution of network congestion
US7916647B2 (en) * 2007-11-07 2011-03-29 Brocade Communications Systems, Inc. Automatic adjustment of logical channels in a fibre channel network
TWI482460B (zh) * 2008-05-30 2015-04-21 Marvell Int Ltd 網路處理器單元及其相關方法
US8693329B2 (en) * 2008-06-24 2014-04-08 Unwired Planet, Llc Congestion control in a wireless communication network
US8300544B2 (en) * 2008-07-11 2012-10-30 Broadcom Corporation Wireless subscriber uplink (UL) grant size selection
US8223641B2 (en) * 2008-07-28 2012-07-17 Cellco Partnership Dynamic setting of optimal buffer sizes in IP networks
US20100268897A1 (en) * 2009-04-16 2010-10-21 Keishi Okamoto Memory device and memory device controller
US8180877B2 (en) * 2009-06-04 2012-05-15 International Business Machines Corporation Logically partitioned system having subpartitions with flexible network connectivity configuration
US8391717B2 (en) 2010-05-24 2013-03-05 Hewlett-Packard Development Company, L. P. Flow-control methods and systems for multibus systems
EP2413543A1 (en) * 2010-07-30 2012-02-01 Institut National De Recherche En Informatique Et En Automatique Binary search method for congestion avoidance
EP2413542A1 (en) * 2010-07-30 2012-02-01 Institut National De Recherche En Informatique Et En Automatique Flow aware congestion avoidance method and system
US8774010B2 (en) 2010-11-02 2014-07-08 Cisco Technology, Inc. System and method for providing proactive fault monitoring in a network environment
US8559341B2 (en) 2010-11-08 2013-10-15 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
CN102025635A (zh) * 2010-12-16 2011-04-20 浪潮(北京)电子信息产业有限公司 一种工作在全双工模式下的网络流量控制方法及装置
US8842536B2 (en) * 2010-12-23 2014-09-23 Brocade Communications Systems, Inc. Ingress rate limiting
EP2482596B1 (en) * 2011-01-26 2013-09-04 Nxp B.V. Syncronizing wireless devices
US8982733B2 (en) 2011-03-04 2015-03-17 Cisco Technology, Inc. System and method for managing topology changes in a network environment
US8670326B1 (en) * 2011-03-31 2014-03-11 Cisco Technology, Inc. System and method for probing multiple paths in a network environment
US8724517B1 (en) 2011-06-02 2014-05-13 Cisco Technology, Inc. System and method for managing network traffic disruption
US8830875B1 (en) 2011-06-15 2014-09-09 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
US8908682B2 (en) * 2012-02-02 2014-12-09 International Business Machines Corporation Switch discovery protocol for a distributed fabric system
US20130205038A1 (en) * 2012-02-06 2013-08-08 International Business Machines Corporation Lossless socket-based layer 4 transport (reliability) system for a converged ethernet network
US8774195B2 (en) 2012-04-30 2014-07-08 Hewlett-Packard Development Company, L.P. Using probabilistic values for routing data packets on a data center network
TWI502929B (zh) * 2012-05-28 2015-10-01 Acer Inc 訊號時序補償系統和方法
US9450846B1 (en) 2012-10-17 2016-09-20 Cisco Technology, Inc. System and method for tracking packets in a network environment
DE102012219176A1 (de) * 2012-10-22 2014-04-24 Siemens Aktiengesellschaft Kommunikationsnetzwerk und Verfahren zum Betreiben eines Kommunikationsnetzwerkes
JP6060723B2 (ja) * 2013-02-21 2017-01-18 富士通株式会社 通信システム、送信器、及び通信制御方法
US9473418B2 (en) 2013-12-12 2016-10-18 International Business Machines Corporation Resource over-subscription
JP6217424B2 (ja) 2014-02-05 2017-10-25 富士通株式会社 制御装置及び制御方法
US9823864B2 (en) * 2014-06-02 2017-11-21 Micron Technology, Inc. Systems and methods for throttling packet transmission in a scalable memory system protocol
US10110445B2 (en) 2014-09-27 2018-10-23 At&T Global Network Services France, Sas Closed control loops for data centers
CN105578524B (zh) * 2014-10-07 2019-01-25 国基电子(上海)有限公司 终端设备及封包处理方法
US9762491B2 (en) 2015-03-30 2017-09-12 Mellanox Technologies Tlv Ltd. Dynamic thresholds for congestion control
US9699095B2 (en) 2015-05-21 2017-07-04 Mellanox Technologies Tlv Ltd. Adaptive allocation of headroom in network devices
US10069748B2 (en) 2015-12-14 2018-09-04 Mellanox Technologies Tlv Ltd. Congestion estimation for multi-priority traffic
US10069701B2 (en) 2016-01-13 2018-09-04 Mellanox Technologies Tlv Ltd. Flexible allocation of packet buffers
US10250530B2 (en) 2016-03-08 2019-04-02 Mellanox Technologies Tlv Ltd. Flexible buffer allocation in a network switch
US10084716B2 (en) 2016-03-20 2018-09-25 Mellanox Technologies Tlv Ltd. Flexible application of congestion control measures
US10205683B2 (en) * 2016-03-28 2019-02-12 Mellanox Technologies Tlv Ltd. Optimizing buffer allocation for network flow control
US10079782B2 (en) * 2016-03-31 2018-09-18 Mellanox Technologies Tlv Ltd. Facilitating communication of data packets using credit-based flow control
US10387074B2 (en) 2016-05-23 2019-08-20 Mellanox Technologies Tlv Ltd. Efficient use of buffer space in a network switch
US9985910B2 (en) 2016-06-28 2018-05-29 Mellanox Technologies Tlv Ltd. Adaptive flow prioritization
US10389646B2 (en) 2017-02-15 2019-08-20 Mellanox Technologies Tlv Ltd. Evading congestion spreading for victim flows
US10645033B2 (en) 2017-03-27 2020-05-05 Mellanox Technologies Tlv Ltd. Buffer optimization in modular switches
CN112073331A (zh) 2017-05-31 2020-12-11 华为技术有限公司 一种流量控制方法、设备及系统
US11082347B2 (en) * 2018-03-26 2021-08-03 Nvidia Corporation Techniques for reducing congestion in a computer network
WO2019232760A1 (zh) * 2018-06-07 2019-12-12 华为技术有限公司 一种数据交换方法、数据交换节点及数据中心网络
CN109039936B (zh) * 2018-08-30 2021-12-28 华为技术有限公司 传输速率控制方法、装置、发送设备和接收设备
CN111106974B (zh) * 2018-10-25 2022-03-08 中国信息通信研究院 一种测试无损网络性能的方法和装置
US10938730B2 (en) * 2019-01-29 2021-03-02 EMC IP Holding Company LLC Data transmission techniques between systems having different communication speeds
US11005770B2 (en) 2019-06-16 2021-05-11 Mellanox Technologies Tlv Ltd. Listing congestion notification packet generation by switch
US10999221B2 (en) 2019-07-02 2021-05-04 Mellanox Technologies Tlv Ltd. Transaction based scheduling
US11470010B2 (en) 2020-02-06 2022-10-11 Mellanox Technologies, Ltd. Head-of-queue blocking for multiple lossless queues
US11770347B1 (en) * 2021-03-08 2023-09-26 United States Of America As Represented By The Secretary Of The Air Force Method of risk-sensitive rate correction for dynamic heterogeneous networks
US11973696B2 (en) 2022-01-31 2024-04-30 Mellanox Technologies, Ltd. Allocation of shared reserve memory to queues in a network device

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8605613D0 (en) * 1986-03-07 1986-04-16 Limb J O Traffic scheduler
US5901138A (en) * 1996-11-08 1999-05-04 International Business Machines Corporation Process for improving the efficiency of high performance routing
WO1999014865A1 (en) * 1997-09-15 1999-03-25 Diamond Multimedia Systems, Inc. System and method for data rate adjustments in modem communications
US6529518B1 (en) * 1998-06-11 2003-03-04 Sun Microsystems, Inc. Method and apparatus for providing a network interface
US6744757B1 (en) * 1999-08-10 2004-06-01 Texas Instruments Incorporated Private branch exchange systems for packet communications
EP1214810A1 (en) * 1999-09-20 2002-06-19 Nokia Corporation Error control method and apparatus
US6901050B1 (en) * 2001-03-05 2005-05-31 Advanced Micro Devices, Inc. Systems and methods for flow-based traffic shaping
US7372814B1 (en) * 2003-02-27 2008-05-13 Alcatel-Lucent Network system with color-aware upstream switch transmission rate control in response to downstream switch traffic buffering
JP4359565B2 (ja) * 2003-03-17 2009-11-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 伝送能力に関する情報を得るための方法
US7274666B2 (en) * 2003-04-01 2007-09-25 International Business Machines Corporation Method and system for managing traffic within a data communication network
US20080037420A1 (en) * 2003-10-08 2008-02-14 Bob Tang Immediate ready implementation of virtually congestion free guaranteed service capable network: external internet nextgentcp (square waveform) TCP friendly san
US20050144309A1 (en) * 2003-12-16 2005-06-30 Intel Corporation, A Delaware Corporation Systems and methods for controlling congestion using a time-stamp
US8543723B2 (en) * 2004-07-27 2013-09-24 Sony Corporation Home network system with transmission error recovery
CN101040489B (zh) * 2004-10-22 2012-12-05 思科技术公司 用于统一输入/输出和降低延迟的网络设备体系结构
US7969971B2 (en) * 2004-10-22 2011-06-28 Cisco Technology, Inc. Ethernet extension for the data center
US7889659B2 (en) * 2007-04-16 2011-02-15 Cisco Technology, Inc. Controlling a transmission rate of packet traffic

Also Published As

Publication number Publication date
MX2010003014A (es) 2010-03-31
KR20100072210A (ko) 2010-06-30
EP2195980A1 (en) 2010-06-16
TWI429242B (zh) 2014-03-01
JP2010541351A (ja) 2010-12-24
CA2699325C (en) 2016-03-15
US7821939B2 (en) 2010-10-26
CA2699325A1 (en) 2009-04-02
EP2195980B1 (en) 2014-11-05
CN101803316A (zh) 2010-08-11
BRPI0816013A2 (pt) 2018-05-22
CN101803316B (zh) 2012-07-11
TW200922221A (en) 2009-05-16
US20090080334A1 (en) 2009-03-26
IL204679A0 (en) 2010-11-30
IL204679A (en) 2013-03-24
WO2009040229A1 (en) 2009-04-02
KR101104004B1 (ko) 2012-01-06
WO2009040229A4 (en) 2009-05-14
BRPI0816013B1 (pt) 2020-10-20

Similar Documents

Publication Publication Date Title
JP5159889B2 (ja) データ・センタ・イーサネット・アーキテクチャの仮想レーン上での適応輻輳制御のための方法、システムおよびコンピュータ・プログラム製品
US20220210092A1 (en) System and method for facilitating global fairness in a network
WO2018210117A1 (zh) 一种拥塞控制方法、网络设备及其网络接口控制器
CN107204931B (zh) 通信装置和用于通信的方法
US9025451B2 (en) Positive feedback ethernet link flow control for promoting lossless ethernet
WO2018218957A1 (zh) 一种流量控制方法、设备及系统
JP2008507204A (ja) 二方向メッセージングネットワークでゾーン間帯域を管理する方法
US20140140206A1 (en) System and Method for Credit-Based Link Level Flow Control
WO2021238799A1 (zh) 一种数据报文传输方法及装置
CN111224888A (zh) 发送报文的方法及报文转发设备
GB2423219A (en) A proxy device interposed between a server and a wireless client controls a characteristic of the server depending on the quality of the link to the client
JP5783469B2 (ja) 輻輳制御システム、輻輳制御方法、及び通信装置
JP5065269B2 (ja) ローカル・エリア・ネットワーク管理
Yang et al. Improving XCP to achieve max–min fair bandwidth allocation
WO2024061042A1 (zh) 数据传输方法和数据传输系统
WO2023226532A1 (zh) 拥塞控制方法、节点及系统
KR20100077418A (ko) 서비스 품질 향상을 위한pr―sctp 기반 실시간 멀티미디어 데이터 전송 방법
KR20200113632A (ko) 전송 경로 상태에 기반한 혼잡 제어를 사용하는 타겟 전송 속도 결정 방법 및 시스템
CN117459464A (zh) 一种数据流转发方法、装置、设备及存储介质
Mulahuwaish et al. A Congestion Avoidance Approach in Jumbo Frame-enabled IP Network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121211

R150 Certificate of patent or registration of utility model

Ref document number: 5159889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3