JP5477112B2 - ネットワークシステムの試験方法 - Google Patents

ネットワークシステムの試験方法 Download PDF

Info

Publication number
JP5477112B2
JP5477112B2 JP2010080266A JP2010080266A JP5477112B2 JP 5477112 B2 JP5477112 B2 JP 5477112B2 JP 2010080266 A JP2010080266 A JP 2010080266A JP 2010080266 A JP2010080266 A JP 2010080266A JP 5477112 B2 JP5477112 B2 JP 5477112B2
Authority
JP
Japan
Prior art keywords
switch
node
packet
switch device
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010080266A
Other languages
English (en)
Other versions
JP2011216942A (ja
Inventor
一成 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010080266A priority Critical patent/JP5477112B2/ja
Priority to US13/076,090 priority patent/US8804543B2/en
Publication of JP2011216942A publication Critical patent/JP2011216942A/ja
Application granted granted Critical
Publication of JP5477112B2 publication Critical patent/JP5477112B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/90Buffering arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control

Description

本発明は、ネットワークシステムの試験方法に関する。
近年のネットワークの大規模化に伴い、高速なシリアル相互接続が要求されている。この相互接続のため、多数のノード(Node)がネットワークスイッチを介し接続するネットワーク環境を構築すること一般的である。このネットワーク環境の試験方法のひとつとして負荷試験が知られている。従来の負荷試験は、パケットのサイズや転送時間間隔を調整して、負荷を擬似的に作り出していた。
特開平8−18570号公報 特開2004−240980号公報
パケット調整型の負荷試験の場合、通常の転送ではネットワークシステムが待ちキューを制御出来る範囲であるため、パケットがキューに滞留する状態を作り出すのが困難であり、実際に高負荷であるとは言い難い状態であった。
本発明の目的は、多数のノードとネットワークスイッチとからなるネットワークシステムの高負荷状態を確実に実現するネットワークシステムの試験方法を提供することにある。
この目的の達成のため、開示の負荷試験方法は、複数のノード装置が第1のスイッチ装置を介し第2のスイッチ装置を経由したパケット交換を行うネットワークシステムの負荷試験方法であって、前記複数ノード装置の一のノード装置が前記第2のスイッチ装置を介する前記一のノード装置を宛先とした複数の第1のパケットを前記第1のスイッチ装置に送信する第1のステップと、前記第1のステップと並行して前記複数ノード装置の他のノード装置が前記第1のスイッチ装置を介する前記一のノード装置を宛先とした複数の第2のパケットを前記第1のスイッチ装置に送信する第2のステップと、前記第1のスイッチ装置が前記一のノード装置が送信した前記複数の第1のパケットを前記第2のスイッチ装置に転送する第1の転送ステップと、前記第2のスイッチ装置が前記第1のパケットを交換待ちキューバッファに格納した後、前記交換待ちキューバッファ一の前記第1のパケットに対しノード間の同期制御を行い、前記同期制御された前記第1のパケットを前記第1のスイッチ装置に転送する第2の転送ステップと、前記第1のスイッチ装置が前記第のスイッチ装置から受信した第1のパケットと前記他のノード装置から受信した第2のパケットをキューバッファに格納した後、前記一のノード装置に転送する第3のステップと、前記第2のスイッチ装置の交換待ちパケット数に基づく状態情報を監視する第4のステップとを有する。
一のノード装置が通常の転送試験を行い、併せて他のノード装置がRDMAライト転送も行うことで、ターゲットである一のノード側に集中したアクセスを行い、間接的に第のスイッチ装置のキューがバックプレッシャー状態になり、確実に且つ短期間で第のスイッチ装置の高負荷状態を実現出来る。確実に負荷状態であるという根拠のひとつとしてキュー(送・受信バッファ)にパケットを出来るだけ滞留させ、第のスイッチ装置にバックプレッシャーを発生し、第のスイッチがエラーとなる状況を作り出すことができる。
実施の形態のネットワークシステムの構成図である。 図1のノードのブロック図である。 図1の第1のスイッチの構成図である。 図1の第2のスイッチの構成図である。 実施の形態のネットワークシステムの試験方法の通常試験の説明図である。 実施の形態のネットワークシステムの試験方法のRDMAライトの説明図である。 図5及び図6の通常転送動作の説明図である、 図6のRDMA転送動作の説明図である。 図5及び図6の試験方法の動作説明図である。 実施の形態の転送試験プログラムの構成図である。 図1の端末装置が実行する試験処理フロー図である。 図11の内部テーブルの説明図である。 図11のリンクアップ処理の説明図である。 図11の転送試験の動作説明図である。 他の実施の形態のネットワークシステムの負荷試験方法の説明図である。
以下、実施の形態の例を、ネットワークシステム、ネットワークシステムの試験方法、転送試験処理、他の実施の形態の順で説明するが、開示のネットワークシステム、ノード、スイッチは、この実施の形態に限られない。
(ネットワークシステム)
図1は実施の形態のネットワークシステムの構成図である。図2は図1のノードのブロック図である。図3は図1の第1のスイッチの構成図である。図4は図1の第2のスイッチの構成図である。
図1において、ネットワークシステムは、多数(図1では6つ)のノード装置(以下、ノードという)3−1〜3−6と、複数(図1では2つ)の第1のスイッチ装置群(IB−SWと記す)2−1,2−2と、第2のスイッチ装置(バリアスイッチと記す)1とを有する。
第1のスイッチ装置群(以下、第1のスイッチという)の一方2−1は信号線(リンクという)7−1〜7−6により複数のノード3−1〜3−3の各々と接続し、且つ第2のスイッチ装置(以下、第2のスイッチという)1と信号線(リンク)7−13〜7−15により接続する。第1のスイッチ群の他方2−2は信号線7−7〜7−12により他の複数のノード3−4〜3−6の各々と接続し、且つ第2のスイッチ1と信号線(リンク)7−16〜7−18により接続する。
従って、複数のノード3−1〜3−3は、第1のスイッチ群の一方2−1を使用して、相互にパケットの転送を行い、且つ第1のスイッチ群の一方2−1、第2のスイッチ1、第1のスイッチ群の他方2−2を介し他の複数のノード3−4〜3−6とパケットの転送を行う。
同様に、他の複数のノード3−4〜3−6は、第1のスイッチ群の他方2−2を使用して、相互にパケットの転送を行い、且つ第1のスイッチ群の他方2−2、第2のスイッチ1、第1のスイッチ群の一方2−1を介し複数のノード3−1〜3−3とパケットの転送を行う。
ノード3−1〜3−6はサーバやI/O(Input/Output)ユニット等で構成される、第1のスイッチ群2−1,2−2はインフィニバンドスイッチ(IB−SW:InfiniBand−Switch)やイーサネット(登録商標)スイッチ(Ethenet Switch)で構成される。以下、第1のスイッチ群2−1,2−2をインフィニバンドスイッチで説明する。しかし、後述するRDMA(Remote Direct Memory Access)とTCPオフロードエンジン(TOE)を備えたイーサネット(登録商標)スイッチでも、インフィニバンドスイッチと同一の動作が可能である。
第1のスイッチ群2−1,2−2がインフィニバンドスイッチで構成された場合には、第1のスイッチ群2−1,2−2はインフィニバンドリンク(IB Link)7−1〜7−18によりノード3−1〜3−6と第2のスイッチ1との各々に接続する。
第2のスイッチ1はインフィニバンドスイッチで構成される。第2のスイッチ1は交換機能を実行するととともに、ノード間のバリア(Barrier)同期、リダクション演算及びOSスケジュールのための同期割り込み機能を実行する。ノード間バリア同期は並列処理の同期ポイントに到達するまで各ノードの処理結果を待ち合わせるものである。第2のスイッチ1はノード間バリア機能により各ノードからの転送パケットを受信し、待ち合わせ処理し、他のノードへ送信する。
図1のネットワークシステムの例はノード数が数千台規模のHPC(High Performance Computing)システムを開示する。HPCシステムでは、各ノードが並列にジョブを実行し、各ノード間で、スイッチ1,2−1,2−2を介しジョブ結果を転送する。第1のスイッチ1の同期割り込み機能は多数のノード間でユーザジョブの同期動作を実行し、並列ジョブの実行の効率を高めるのに役立つ。
図1のシステムは、多数のノード間でパケットを交換するため、多階層のスイッチ構造を有するとともに、第1のスイッチ1に同期割り込み機能を設けて並列コンピューテイグの実行効率を向上する。
又、図1において、LAN(Local Area network)4は各ノード3−1〜3−6と第2のスイッチ1と端末装置5とを接続する。端末装置5はLAN4を介し各ノード3−1〜3−6に試験プログラムをロードし、各ノード3−1〜3−6を起動する。又、端末装置5はLAN4を介し第2のスイッチ1の待ちキュー等のバッファの内容を読み出す。例えば、端末装置5としてはパーソナルコンピュータ(PC:Personal Computer)を適用できる。
図2により、図1のノード3−1〜3−6を説明する。図2において、ノード3−1〜3−6は情報処理装置で構成される。ノード3−1〜3−6は、演算処理装置(CPU:Central Processing Unit)30と、演算処理装置(以下CPUという)30が使用するホストメモリ34と、ブリッジ回路(North Bridgeと記す)32と、ブリッジ回路32にバス36で接続されたネットワークインタフェースカード(NIC:Network Interface Card)38とホストバスアダプター(HBA:Host Bus Adapter)40とを有する。
記憶デバイス42はホストバスアダプター40に接続する。記憶デバイス42には、例えば、ハードデイスク装置が好適である。バス36には、例えば、PCI(Peripheral Component) Busが好ましい。ブリッジ回路32はCPU30とホストメモリ34とネットワークインタフェースカード(以下NICと称す)38とホストバスアダプター(以下HBAと称す)40との中継回路で構成され、例えば、PCIスイッチを適用できる。
ホストメモリ34はユーザーが使用するユーザーメモリ34Aと、HBA40が使用する第1のIOメモリ34Bと、NIC38が使用する第2のIOメモリ34とを備える。ユーザーメモリ34A,第1、第2のIOメモリ34B,34Cは、ハードウェアとして、一体のものである。
NIC38はインフィニバンドカード(Infiniband Card)で構成される。NIC38は、前述のようにRDMA(Remote Direct Memory Access)とTCPオフロードエンジン(TOE)を備えたイーサネット(登録商標)規格のイーサネット(登録商標)カードとしても良い。
NIC38は送信キューバッファ100と受信キューバッファ102とホストチャネルアダプタ(HCA:Host Channel Adaptor)104とを有する。ホストチャネルアダプタ(以下HBAと称す)104はインフィニバンド仕様の通信規格でリンク7−1(7−2)を介し第1のスイッチ2−1(2−2)とパケットの受信を行う。送信キューバッファ100はCPU30のワークキューエレメント(送信要求)を保持(キューイング(Quing))する。受信キューバッファ102はスイッチ2−1(2−2)からの受信パケットの受信要求を保持(キューイング(Quing))する。いずれのキューバッファ100,102も、多数(例えば、数十個)のキューを保持できる。
図2では、情報処理装置は1つのNIC38を搭載する例で示されているが、図1のノード3−1〜3−6から第1のスイッチ群2−1,2−2へのIB−Link7−1〜7−12に示すように、ノード(情報処理装置)3−1〜3−6は2つのNIC38を搭載する。
次に、図3により第1のスイッチ2−1、2−2を説明する。第1のスイッチ2−1,2−2は、多数のポート24とスイッチコア26とルーテイング回路20とで構成される。ポート24の各々は対応するリンク7−1〜7−6を介し対応するノード3−1〜3−3のNIC38に接続し、又リンク7−13〜7−15を介し第2のスイッチ1に接続する。この各ポート24は、送受信キューバッファ22を有する。送受信キューバッファ22は、送信キューエレメントと受信キューエレメントを複数保持する。
各ポート24は送信キューバッファ22のキューエレメントを読み出し、読み出したキューエレメントが送信キューエレメントであると判断すると、ポート24に保持した対応する送信パケットをリンクを介し対応するノードのNIC38に送信する。又、各ポート24は読み出したキューエレメントが受信キューエレメントであると判断すると、受信パケットのパケットヘッダをルーテイング回路20に転送する。
スイッチコア26はクロスバースイッチを有し、各ポート24に接続する。ルーテイング回路20は転送されたパケットヘッダから送信アドレス、宛先アドレス、経由先、オペレーションコードを判定する。ルーテイング回路20はパケットヘッダの経由先に第2のスイッチ1を指定している場合には、スイッチコア26を操作し、ポート24の受信パケットをリンク7−13〜7−15に接続するポート24のいずれかに転送する。又、ルーテイング回路20はパケットヘッダの経由先に第2のスイッチ1を指定しない場合には、スイッチコア26を操作し、ポート24の受信パケットを宛先アドレスで指定されたリンク7−1〜7−6に接続するポート24に転送する。
次に、図4により、第2のスイッチ1を説明する。第2のスイッチ1は、多数のポート18とスイッチコア10とスイッチ制御回路16とを有する。ポート18の各々はリンク7−13〜7−18を介し対応する第2のスイッチ2−1,2−2のポート24に接続する。この各ポート18は、交換待ちキューバッファ18Aを有する。交換待ちキューバッファ18Aは、各ポートが受信したパケットの内、交換されていない受信キューエレメントを複数保持する。
スイッチコア10は、ポート18に接続する第1のクロスバースイッチ12aとポート18に接続する第2のクロスバースイッチ12bと第1、第2のクロスバースイッチ12a,12bに接続するメモリ14とを有する。メモリ14はポート18毎に割り当てられたメモリ領域を備え、ポート18が受信したパケットを割り当てられた領域に一時保持する。このメモリ14は同期割込み制御のための待ち合わせ処理に利用される。
スイッチ制御回路16は同期割込制御モジュール16Aとルーテイングモジュール16Bとを有する。ルーテイングモジュール16Bは各ポート18の交換待ちキューバッファ18Aのキューエレメントとパケットヘッダから送信アドレス、宛先アドレス、経由先、オペレーションコードを判定する。ルーテイングモジュール16Bはパケットヘッダの経由先に第1のスイッチ2−1を指定している場合には、クロスバ−スイッチ12aを操作し、メモリ14から読み出したパケットをリンク7−13〜7−15に接続するポート18のいずれかに転送する。又、ルーテイングモジュール16Bはパケットヘッダの経由先に第1のスイッチ2−2を指定した場合には、クロスバースイッチ12bを操作し、メモリ14から読み出したパケットをリンク7−16〜7−18に接続するポート18のいずれかに転送する。
同期割込制御モジュール16Aはルーテイングモジュール16Bを制御する。同期制御モジュール16Aは各ポート18の交換待ちキューバッファ18Aから読み出したキューエレメントのパケットが他のノードとの同期制御が必要であるか、既に受信したパケットとの同期制御条件を満たしているかを判定する。
同期割込制御モジュール16Aはパケットの同期制御が必要で、同期制御条件を満たしていないと判定すると、そのキューエレメントの識別子を自己のレジスタに格納し、ルーテイングモジュール16Bのルーテイング動作を禁止する。このため、対応するパケットはメモリ14に保持されたままとなる。即ち、同期割込制御モジュール16Aは待ち合わせ処理する。
一方、同期割込制御モジュール16Aはパケットの同期制御が必要で、同期制御条件を満たしていると判定すると、レジスタ内の同期制御条件を満たしている識別子のパケットのルーテイングをルーテイングモジュール16Bに指示する。これにより、ルーテイングモジュール16Bはメモリ14内の同期制御条件を満たしたパケットを前述のようにルーテイング処理する。
このように、同期割込制御モジュール16Aは同期制御が必要なパケットのルーテイングを待たせ、同期制御条件が満たされると待たされたパケットを含めた複数のパケットのルーテイングを行うように、ルーテイングモジュール16Bを制御する。前述のように、メモリ14はポート18毎に割り当てられたメモリ領域を備えるため、待ち合わせされた複数のパケットがメモリ14に存在すると、対応ポートの交換待ちキューバッファ18Aのキューエレメントはルーテイングモジュール16Bでルーテイング処理されず、滞留する。この同期制御条件は、例えばユーザ時間とOS(Operating System)時間の割り当て周期を一致するための条件であり、ユーザジョブのノード間同期動作がノード毎に異なるOS動作により長期間阻害され、遅延することを防止できる。
(ネットワークシステムの試験方法)
次に、ネットワークシステムの負荷試験方法を説明する。図5及び図6は実施の形態のネットワークシステムの試験方法の説明図である。図7は図5及び図6の通常転送動作の説明図である、図8は図6のRDMA転送動作の説明図である。図9は図5及び図6の試験方法の動作説明図である。
図5及び図6において、図1乃至図4で説明したものと同一のものは同一の記号で示してある。又、負荷試験の対象は第2のスイッチ(バリアスイッチ)1である。
図5及び図6に各ノード3−1〜3−6に転送試験プログラム6をロードする。そして、ターゲットとなるノードを指定する。図5では、ノード3−1,3−4をターゲットノードに指定する。ターゲットノード3−1,3−4は、通常の転送試験を実施するノードであり、ターゲットノード以外のノードは、RDMAWriteするだけのノードである。
図5に示すように、ターゲットノード3−1,3−4は通常試験のパケットを第1のスイッチ2−1,2−2に送信する。通常試験パケットはパケットの宛先をターゲットノード自身のアドレスとし、経由先を第1のスイッチ、第2のスイッチに指定したものである。
図5の矢印に示すように、通常試験のパケットは、ターゲットノード3−1,3−4から各々第1のスイッチ2−1,2−2を経由し、第2のスイッチ1に到り、第のスイッチ1から各々第1のスイッチ2−1,2−2を経由して、ターゲットノード3−1,3−4に到達する。
本実施の形態では、図6に示すように、通常試験の他に、ターゲットノード3−1、3−4以外のノード3−2.3−3、3−5,3−6がターゲットノード3−1,3−4を宛先として、RDMAWrite転送を行う(図6の矢印参照)。即ち、通常試験とRDMA転送が並列して実行される。
ここで、RDMAパケット転送と、通常パケット転送とを説明する。図7はノード3−2からノード3−1へ通常パケット転送する説明図である。ノード3−2のCPU34はメモリ34のユーザーメモリ34Aに転送データを書き込む(図7の(1))。ノード3−2のCPU34はNIC38の送信キューバッファ100にキューエレメントを書きこむ。ユーザーメモリ34Aの転送データはメモリ34のIOメモリ34Cに移動される(図7(2))。NIC38のHCA104はIOメモリ34Cの転送データを読み出し、パケットに組み立て、パケットをリンク7−3(7−4)を介し第1のスイッチ2−1に転送する(図7(3)。第1のスイッチ3−1はパケットを受信し、宛先を判別し、リンク7−1(7−2)を介しノード3−1のNIC38に転送する(図7(4))。
ノード3−1のNIC38は受信キューバッファ102にキューエレメントを格納し、且つ受信したパケットをIOメモリ34Cに格納する(図7(5))。CPU30が受信キューバッファ102を参照し、IOメモリ34Cのパケットをユーザーメモリ34Aに移動する(図7(6))。これにより、CPU30は受信パケットの処理を実行できる。
次に、RDMAライト動作を説明する。RDMAはライト動作とリード動作を有する。RDMAライト動作は一のノードのメモリのデータを他のノードのメモリに直接(Direct)書き込む動作である。図8はノード3−2からノード3−1へRDMAライトパケット転送する説明図である。
ノード3−2のCPU34はメモリ34のユーザーメモリ34Aに転送データを書き込み、NIC38の送信キューバッファ100にキューエレメント(リモート側(受信)アドレスを持ったワークキューエレメントを書きこみ、NIC38のHCA104に所有権を渡す(図8(1)。NIC38のHCA104はユーザーメモリ34Aの転送データを読み出し、パケットに組み立て、リンク7−3(7−4)を介し第1のスイッチ2−1に転送する(図8(2)。第1のスイッチ3−1はパケットを受信し、宛先を判別し、リンク7−1(7−2)を介しノード3−1のNIC38に転送する(図8(3))。
ノード3−1のNIC38は受信キューバッファ102にキューエレメントを格納し、且つ受信したパケットの転送データをユーザーメモリ34Aに書き込む(図8(4))。CPU30が受信キューバッファ102を参照し、受信パケットの転送データの処理を行う。
このように、RDMAライト動作は、サーバのCPU30がユーザーメモリ34Aにデータを直接読み書きできるため、メモリ34内で異なるメモリスペース間で同じデータの複数コピーを転送することがなくなる。このため、転送動作に伴うCPU割り込みもなくなり、CPU30からデータ移動のオーバーヘッドをオフロードするため、CPU30は他のタスクを実行でき、処理効率が向上する。
InfiniBand、またはRDMAとTCPオフロード エンジン(TOE)を備えたイーサネット(登録商標)NICと組み合わせを使用した場合、ほとんどすべての転送プロトコル処理とデータ移動が中央のCPU30からインターフェイスハードウェア(NIC)にオフロードできる。このため、CPUのパフォーマンスは大きく向上する。
図5及び図6のように、ターゲットノード3−1,3−4の通常パケット転送とターゲットノード3−1,3−4以外のノード3−2,3−3,3−5,3−6のRDMA転送とを実行することより、通常転送とRDMA転送とを競合させる。
図9は横軸に時間Tをとり、各ノードの転送試験、第のスイッチ1、第のスイッチ2−1、ターゲットノードの受信キューバッファのパケット滞留状態を図示した説明図である。図9に示すように、通常転送とRDMA転送との競合により、ターゲットノード3−1,3−4の受信キューバッファ102にパケットが滞留し、その結果第1のスイッチ2−1の受信キューバッファ22も滞留が起こり、最終的に第1のスイッチ1から送信されるデータが待ちキュー18Aに溜り易い状況を作り出す。
RDMAライトのデータ転送は、図8で説明したRDMAプロトコル制御により、高速且つ連続でデータ転送が可能である。このため、特定のポートに集中した負荷を与えやすい。このため、第のスイッチ1がバックプレッシャー状態を引き起こす。バックプレッシャーはフレーム制御方式のひとつであり、擬似的に衝突(コリジョン:Collision)を
発生させることにより、送信元がコリジョンを検出し、一時的にフレームの送信を中断させる方法である。
図1の端末装置5は負荷試験開始からLAN4を介し第のスイッチ1のレジスタ情報をモニターし、第1のスイッチ1がバックプレッシャー状態になっているかどうかを、リアルタイムに把握する。
このように、確実に負荷状態であるという根拠のひとつとしてキュー(送・受信バッフ
ァ)にパケットを出来るだけ滞留させ、第のスイッチにバックプレッシャーを発生し、
のスイッチがエラーとなる状況を作り出す。又、RDMA転送が可能な環境であれば、第のスイッチがブラックボックスでも、高負荷を起こすことが可能になる。第のスイッチ1にバックプレッシャー状態を起こすため、ソフトウェアやハードウェアに特殊な機構を設ける必要がない。
又、通常の転送試験と併せてRDMAライト転送も行うことで、ターゲットノード側に集中したアクセスを行い、間接的に第のスイッチ1のキューがバックプレッシャー状態になり、確実に且つ短期間で第のスイッチ1の高負荷状態を実現出来る。
更に、第のスイッチの高負荷状態を確実に実現出来ることから、本来見つけることが出来ない装置障害(同期制御機能等)などを検出することが出来、第のスイッチの信頼性を高めることが出来る。しかも、特殊な技術が不要なことから、生産現場などで試験するコストを低減できる。操作も容易なことから、装置の試験時間短縮・コストダウンに貢献出来る。
(転送試験処理)
図10は、実施の形態の転送試験プログラムの構成図である。図10に示すように、転送試験プログラム6は初期化処理プログラム62、転送試験制御プログラム64、転送試験プログラム66−1〜66−nとを有する。
初期化処理プログラム62はプログラム領域の初期化及びInfiniBand規格特有のデバイス初期化などの処理を含む。転送試験制御プログラム64はユーザから指定されたオプションなどに従って実施する試験を開始・停止する制御を行う。転送試験プログラム66−1〜66−nは実際に転送試験を行うプログラムであり、図5及び図6の転送試験プログラム6及びRDMAライト転送処理60を一機能として有する。
図11は図1の端末装置が実行する試験処理フロー図である。図12は図11の内部テーブルの説明図である。図13は図11のリンクアップ処理の説明図である。図14は図11の転送試験の動作説明図である。
以下、図12乃至図14を参照して、図11の試験処理を説明する。
(S10)端末装置5は図11に示すノード情報リスト68を読み込む。ノード情報リスト68は試験対象ノードの識別子を格納したリストである。
(S12)端末装置5は読み込んだノード情報リスト68をメモリの内部テーブルに展開する。
(S14)端末装置5はLAN4を介しノード情報リスト68で指定された各ノード3−1〜3−6に図10で示した転送試験プログラム6をロードする。これにより、各ノード3−1〜3−6は初期化処理62を行う。次に、図13に示すように、端末装置5はLAN4を介しノード情報リスト68で指定された各ノード3−1〜3−6にユーザが定義した構成情報ファイル70を転送する。各ノード3−1〜3−6はリンクアップツール(プログラム)72を実行し、構成情報ファイル70を元に、ノードと第1のスイッチとの間及び第1のスイッチと第2のスイッチとの間のリンクアップ(Link-up)処理を行う。全ての接続のリンクアップが終了すると転送(通信)が可能な状態となる。
一般的には、ユーザ環境では、ノードがファームウェアを実行して自動的にリンクアップ処理を行う。この実施の形態では、システムがテスト環境にあるため、ファームウェアが組み込まれていないことが多く、独自に初期化処理を行う。勿論、ファームウェアが組み込まれていれば、このリンクアップ処理は不要である。そして、端末装置5は転送制御を開始する。まず、ノード情報リスト68から試験対象ノード数を得る。
(S16)端末装置5は、ノード数分以降の処理をループしたかを判定する。ノード数分ループしていれば、転送試験を終了する。
(S18)端末装置5はノード数分ループしていないと判定すると、ターゲットとするノードを決める。例えば、端末装置5の画面にノード情報リスト68を表示し、マウス等の入力装置で指定する。図12に示すように、星印が指定されたノードAの先頭に付される。
(S20)端末装置5はLAN4を介し指定されたターゲットノード(図5乃至図9では、ノード3−1,3−4に、バックプレッシャーを起こす予定である待ちキューを持つ第2のスイッチ1のポートを経由した経路を指定して、転送試験を指示する。図14に示すように、指定されたノード3−1,3−4は通常試験のパケットを第1のスイッチ2−1,2−2に送信する。通常試験パケットはパケットの宛先をターゲットノード自身のアドレスとし、経由先を第1のスイッチ、第2のスイッチに指定したものである。
(S22)端末装置5はLAN4を介しターゲットノード3−1、3−4以外のノード3−2.3−3、3−5,3−6にターゲットノード3−1,3−4を宛先としたRDMAWrite転送を指示する。図14に示すように、ターゲットノード3−1、3−4以外のノード3−2.3−3、3−5,3−6はターゲットノード3−1,3−4を宛先として、RDMAWrite転送を行う。
(S24)端末装置5はユーザが指定した時間、ステップS20,S22を継続する。
(S26)端末装置5はユーザが指定した時間が経過すると、LAN4を介し第2のスイッチ1の状態レジスタを読み出し、バックプレッシャー状態かを判断する。
(S28)端末装置5はバックプレッシャー状態であれば、ターゲットノードとエラーをログする。逆に、端末装置5はバックプレッシャー状態でなければ、ログしない。そして、端末装置5はステップS16の処理に戻る。
このように、特殊な技術が不要なことから、生産現場などで試験するコストを低減できる。操作も容易なことから、装置の試験時間短縮・コストダウンに貢献出来る。又、各ノードをターゲットとしたエラーログを見て、第1のスイッチ装置の性能や同期割込み処理の特性、異常を判断できる。
(他の実施の形態)
図15は他の実施の形態の負荷試験処理の説明図である。図15において、図1乃至図14で説明したものと同一のものは同一の記号で示してある。図11の実施の形態では、第1のスイッチ1のある特定の待ちキューを狙ったテスト構成毎に、ユーザが実施するものである。
図15の他の実施の形態では、全てのノードを管理するコントロールプログラム80を端末装置5に設ける。端末装置5はコントロールプログラム80の実行により、ノード情報リスト68を参照し、自動的に実施順序などを制御する。即ち、コントロールプログラム80は第1のスイッチ1の全てのポートをターゲットとしたバックプレッシャーの負荷試験を自動的に行う。
これにより、ユーザのノード指定や試験時間の指定が不要となり、より工数の削減、装置の信頼性向上に貢献出来る。
又、前述の実施の形態では、送信キューバッファ100と受信キューバッファ102をNIC38内に設けた例で説明したが、メモリ34のIOメモリ34C内に設けても良い。しかも、受信キューの滞留によってバックプレッシャーを起こす例で説明したが、受信データを格納する受信バッファの滞留によってバックプレッシャーを起こすようにすることもできる。
更に、受信キューにノード数を6つとしたが、例えば、HPCシステムではノード数が数千個であり、ノード数が多い程、試験効率の向上が期待できる。同様に、第2のスイッチを2つ、第1のスイッチ1を1つの例で説明したが、この数に限られない。
更に、リンク接続をInfiniBand、またはRDMAとTCPオフロード エンジン(TOE)を備えたイーサネット(登録商標)NICとで説明したが、他のRDMAを適用した通信規格を適用できる。
以上、本発明を実施の形態により説明したが、本発明の趣旨の範囲内において、本発明は、種々の変形が可能であり、本発明の範囲からこれらを排除するものではない。
(付記1)
複数のノード装置が第1のスイッチ装置を介し第2のスイッチ装置を経由したパケット交換を行うネットワークシステムの負荷試験方法であって、前記複数ノード装置の一のノード装置が前記第2のスイッチ装置を介する前記一のノード装置を宛先とした複数の第1のパケットを前記第1のスイッチ装置に送信する第1のステップと、前記第1のステップと並行して前記複数ノード装置の他のノード装置が前記第1のスイッチ装置を介する前記一のノード装置を宛先とした複数の第2のパケットを前記第1のスイッチ装置に送信する第2のステップと、前記第1のスイッチが前記第1のスイッチ装置から受信した第1のパケットと前記他のノード装置から受信した第2のパケットをキューバッファに格納した後、前記一のノード装置に転送する第3のステップと、前記第2のスイッチ装置の交換待ちパケット数に基づく状態情報を監視する第4のステップとを有することを特徴とするネットワークシステムの負荷試験方法。
(付記2)
前記第2のステップは、前記他のノード装置が前記複数の第2のパケットを前記第1のスイッチ装置にRDMA転送するステップを有することを特徴とする付記1のネットワークシステムの負荷試験方法。
(付記3)
前記第1のステップは、前記第1のスイッチ装置が前記一のノード装置が送信した前記複数の第1のパケットを前記第2のスイッチ装置に転送する第1の転送ステップと、前記第2のスイッチ装置が前記第1のパケットを交換待ちキューバッファに格納した後、前記第1のパケットを前記第1のスイッチ装置に第2の転送ステップとを有し、
前記一のノード装置が前記第1のスイッチ装置から受信した前記第1及び第2のパケットをキューバッファに格納するステップを更に有することを特徴とする付記1のネットワークシステムの負荷試験方法。
(付記4)
前記第2の転送ステップは、前記第2のスイッチ装置が前記交換待ちキューバッファ一のパケットに対しノード間の同期制御を行い、前記同期制御された前記第1のパケットを前記第1のスイッチ装置に転送するステップを有することを特徴とする付記3のネットワークシステムの負荷試験方法。
(付記5)
前記他のノードを対象として前記第1から前記第4のステップを実行することを特徴とする付記1のネットワークシステムの負荷試験方法。
(付記6)
前記ノード装置はインフィニバンド(InfiniBand)インタフェース装置、又はRDMA機能を備えたイーサネット(登録商標)インタフェース装置を有することを特徴とする付記2のネットワークシステムの負荷試験方法。
(付記7)
前記RDMA転送するステップは、前記第1のスイッチ装置を介し前記他のノードのメモリの転送データを、前記一のノードのメモリに直接転送するステップを有することを特徴とする付記2のネットワークシステムの負荷試験方法。
一のノード装置が通常の転送試験を行い、併せて他のノード装置がRDMAライト転送も行うことで、ターゲットである一のノード側に集中したアクセスを行い、間接的に第のスイッチ装置のキューがバックプレッシャー状態になり、確実に且つ短期間で第のスイッチ装置の高負荷状態を実現出来る。確実に負荷状態であるという根拠のひとつとしてキュー(送・受信バッファ)にパケットを出来るだけ滞留させ、第のスイッチ装置にバックプレッシャーを発生し、第のスイッチがエラーとなる状況を作り出すことができる。
1 第2のスイッチ装置
2−1,2−2 第1のスイッチ装置
3−1〜3−6 ノード装置
4 LAN
5 端末装置
6 転送試験プログラム
7−1〜7−18 リンク
18A 交換待ちキューバッファ
22 待ちキューバッファ
30 CPU
32 ブリッジ回路
34 メモリ
38 インフィニバンドカード

Claims (3)

  1. 複数のノード装置が第1のスイッチ装置を介し第2のスイッチ装置を経由したパケット交換を行うネットワークシステムの負荷試験方法であって、
    前記複数ノード装置の一のノード装置が前記第2のスイッチ装置を介する前記一のノード装置を宛先とした複数の第1のパケットを前記第1のスイッチ装置に送信する第1のステップと、
    前記第1のステップと並行して前記複数ノード装置の他のノード装置が前記第1のスイッチ装置を介する前記一のノード装置を宛先とした複数の第2のパケットを前記第1のスイッチ装置に送信する第2のステップと、
    前記第1のスイッチ装置が前記一のノード装置が送信した前記複数の第1のパケットを前記第2のスイッチ装置に転送する第1の転送ステップと、
    前記第2のスイッチ装置が前記第1のパケットを交換待ちキューバッファに格納した後、前記交換待ちキューバッファ一の前記第1のパケットに対しノード間の同期制御を行い、前記同期制御された前記第1のパケットを前記第1のスイッチ装置に転送する第2の転送ステップと、
    前記第1のスイッチ装置が前記第のスイッチ装置から受信した第1のパケットと前記他のノード装置から受信した第2のパケットをキューバッファに格納した後、前記一のノード装置に転送する第3のステップと、
    前記第2のスイッチ装置の交換待ちパケット数に基づく状態情報を監視する第4のステップとを有する
    ことを特徴とするネットワークシステムの負荷試験方法。
  2. 前記第2のステップは、前記他のノード装置が前記複数の第2のパケットを前記第1のスイッチ装置にRDMA(Remote Direct Memory Access)転送するステップを有する
    ことを特徴とする請求項1のネットワークシステムの負荷試験方法。
  3. 前記第3のステップ後に、前記一のノード装置が前記第1のスイッチ装置から受信した前記第1及び第2のパケットをキューバッファに格納するステップを更に有する
    ことを特徴とする請求項1のネットワークシステムの負荷試験方法。
JP2010080266A 2010-03-31 2010-03-31 ネットワークシステムの試験方法 Expired - Fee Related JP5477112B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010080266A JP5477112B2 (ja) 2010-03-31 2010-03-31 ネットワークシステムの試験方法
US13/076,090 US8804543B2 (en) 2010-03-31 2011-03-30 Test method for network system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010080266A JP5477112B2 (ja) 2010-03-31 2010-03-31 ネットワークシステムの試験方法

Publications (2)

Publication Number Publication Date
JP2011216942A JP2011216942A (ja) 2011-10-27
JP5477112B2 true JP5477112B2 (ja) 2014-04-23

Family

ID=44709559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010080266A Expired - Fee Related JP5477112B2 (ja) 2010-03-31 2010-03-31 ネットワークシステムの試験方法

Country Status (2)

Country Link
US (1) US8804543B2 (ja)
JP (1) JP5477112B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105518620B (zh) * 2014-10-31 2019-02-01 华为技术有限公司 一种网卡配置方法及资源管理中心
CN106470133B (zh) * 2015-08-20 2019-12-03 菜鸟智能物流控股有限公司 系统压力测试方法及装置
CN105515916A (zh) * 2015-12-30 2016-04-20 深圳市创维电器科技有限公司 老化测试监控方法及装置
CN110460491B (zh) * 2019-07-05 2021-05-18 锐捷网络股份有限公司 基于rdma的性能测试方法及装置
CN111464382A (zh) * 2020-03-27 2020-07-28 中国建设银行股份有限公司 一种业务系统的压力智能分配测试方法及装置
US20230066835A1 (en) * 2021-08-27 2023-03-02 Keysight Technologies, Inc. Methods, systems and computer readable media for improving remote direct memory access performance

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4486877A (en) * 1982-06-25 1984-12-04 At&T Bell Laboratories Packet switching loop-around network and facilities testing
CA1203875A (en) * 1983-06-16 1986-04-29 Mitel Corporation Switching system loopback test circuit
JPH01221042A (ja) * 1988-02-29 1989-09-04 Toshiba Corp パケット交換機の輻輳制御方法
JPH0818570A (ja) 1994-07-05 1996-01-19 Hitachi Ltd 負荷テスト機能内蔵atmセル交換装置
US5563875A (en) * 1995-07-10 1996-10-08 International Business Machines Corporation Wrap-around route testing in packet communications networks
JPH0934745A (ja) * 1995-07-19 1997-02-07 Fujitsu Ltd 負荷試験制御方式
US6377583B1 (en) * 1996-06-27 2002-04-23 Xerox Corporation Rate shaping in per-flow output queued routing mechanisms for unspecified bit rate service
US7248585B2 (en) * 2001-10-22 2007-07-24 Sun Microsystems, Inc. Method and apparatus for a packet classifier
JP4016816B2 (ja) * 2002-11-29 2007-12-05 株式会社日立製作所 ネットワーク高速回線への負荷データ発生装置
US7248596B2 (en) 2003-02-07 2007-07-24 Fujitsu Limited Memory interleaving in a high-speed switching environment
US7383312B2 (en) * 2003-12-29 2008-06-03 International Business Machines Corporation Application and verb resource management
JP4704120B2 (ja) * 2005-06-13 2011-06-15 富士通株式会社 ネットワーク障害検出装置及びネットワーク障害検出方法
GB0513321D0 (en) * 2005-06-29 2005-08-03 Ibm A method and system for determining a plurality of scheduling endpoints in a grid network
JP2008191837A (ja) * 2007-02-02 2008-08-21 Hitachi Electronics Service Co Ltd サーバコンピュータネットワーク性能テストシステム
JP4992573B2 (ja) * 2007-06-27 2012-08-08 日本電気株式会社 レイヤ2スイッチ、通信機器及びそれらに用いるデータ部エラー検出方法並びにそのプログラム
US8174991B1 (en) * 2009-06-29 2012-05-08 Juniper Networks, Inc. Methods and apparatus related to analysis of test packets

Also Published As

Publication number Publication date
US8804543B2 (en) 2014-08-12
US20110242993A1 (en) 2011-10-06
JP2011216942A (ja) 2011-10-27

Similar Documents

Publication Publication Date Title
US10210113B2 (en) SAN fabric online path diagnostics
JP5828966B2 (ja) Pcieスイッチング・ネットワークにおけるパケット伝送を実現する方法、装置、システム、及び記憶媒体
US9100349B2 (en) User selectable multiple protocol network interface device
JP5477112B2 (ja) ネットワークシステムの試験方法
KR100687659B1 (ko) Axi 프로토콜에 따른 락 오퍼레이션을 제어하는네트워크 인터페이스, 상기 네트워크 인터페이스가 포함된패킷 데이터 통신 온칩 인터커넥트 시스템, 및 상기네트워크 인터페이스의 동작 방법
US11265266B2 (en) Computer-readable recording medium recording port switching program and port switching method
US20080123672A1 (en) Multiple context single logic virtual host channel adapter
US20080059686A1 (en) Multiple context single logic virtual host channel adapter supporting multiple transport protocols
JP4154853B2 (ja) 制御データを等値化する冗長化プログラマブルコントローラ及び等値化方法。
WO2015131516A1 (zh) 分布式智能平台管理总线连接方法及atca机框
US7564860B2 (en) Apparatus and method for workflow-based routing in a distributed architecture router
JP2005228245A5 (ja)
WO2016135919A1 (ja) ストレージ装置
JP4964666B2 (ja) 冗長化された通信経路を切り替える計算機、プログラム及び方法
US9294342B2 (en) Network node apparatus system, apparatus, and method
GB2532732B (en) Integrating a communication bridge into a data procesing system
JP2009282917A (ja) サーバ間通信機構及びコンピュータシステム
CN112867998A (zh) 运算加速器、交换器、任务调度方法及处理系统
JP4415391B2 (ja) データをネットワークに送信する方法及び装置並びにデータをネットワークから受信する方法及び装置
JP6740683B2 (ja) 並列処理装置及び通信制御方法
TW202011715A (zh) 控制器、調整封包通信規則的方法及網路通信系統
JP5587530B2 (ja) エンジン・プロセッサ連携システム及び連携方法
JP2009224825A (ja) 通信装置およびデータ送信制御方法
JPH0675883A (ja) メッセージ通信装置
JP2004133713A (ja) 2重化システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140127

R150 Certificate of patent or registration of utility model

Ref document number: 5477112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees