JP6902527B2 - 高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステムおよび方法 - Google Patents
高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステムおよび方法 Download PDFInfo
- Publication number
- JP6902527B2 JP6902527B2 JP2018504729A JP2018504729A JP6902527B2 JP 6902527 B2 JP6902527 B2 JP 6902527B2 JP 2018504729 A JP2018504729 A JP 2018504729A JP 2018504729 A JP2018504729 A JP 2018504729A JP 6902527 B2 JP6902527 B2 JP 6902527B2
- Authority
- JP
- Japan
- Prior art keywords
- switch
- switches
- port
- subnet
- ports
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 75
- 239000004744 fabric Substances 0.000 description 69
- 238000007726 management method Methods 0.000 description 43
- 230000003863 physical function Effects 0.000 description 36
- 238000005192 partition Methods 0.000 description 25
- 238000012544 monitoring process Methods 0.000 description 24
- 238000013508 migration Methods 0.000 description 16
- 239000003795 chemical substances by application Substances 0.000 description 15
- 238000004891 communication Methods 0.000 description 15
- 230000005012 migration Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000007449 liver function test Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 9
- 238000000638 solvent extraction Methods 0.000 description 6
- 239000004230 Fast Yellow AB Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 101100216234 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cut20 gene Proteins 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 101100128228 Schizosaccharomyces pombe (strain 972 / ATCC 24843) lid2 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001341 grazing-angle X-ray diffraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002151 riboflavin Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/25—Routing or path finding in a switch fabric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/085—Retrieval of network configuration; Tracking network configuration history
- H04L41/0853—Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0882—Utilisation of link capacity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/48—Routing tree calculation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
- H04L49/113—Arrangements for redundant switching, e.g. using parallel planes
- H04L49/118—Address processing within a device, e.g. using internal ID or tags for routing within a switch
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/15—Interconnection of switching modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/30—Peripheral units, e.g. input or output ports
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/35—Switches specially adapted for specific applications
- H04L49/356—Switches specially adapted for specific applications for storage area networks
- H04L49/358—Infiniband Switches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0236—Filtering by address, protocol, port number or service, e.g. IP-address or URL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0254—Stateful filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45579—I/O management, e.g. providing access to device drivers or storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/44—Star or tree networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/046—Network management architectures or arrangements comprising network management agents or mobile agents therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
- H04L49/111—Switch interfaces, e.g. port details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/70—Virtual switches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
この特許文献の開示の一部は、著作権保護の対象となる資料を含む。著作権保有者は、この特許文献または特許開示の、それが特許商標庁の特許ファイルまたは記録に現れているとおりの、何人による複写複製にも異議を唱えないが、それ以外の場合にはすべての著作権をどのようなものであろうと所有する。
本発明は、一般にコンピュータシステムに関し、特に、高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートすることに関する。
導入されるクラウドコンピューティングアーキテクチャがより大規模になるのに応じて、従来のネットワークおよびストレージに関する性能および管理の障害が深刻な問題になってきている。クラウドコンピューティングファブリックのための基礎としてインフィニバンド(登録商標)(InfiniBand:IB)技術などの高性能な無損失相互接続を用いることへの関心がますます高まってきている。これは、本発明の実施形態が対応するように意図された一般領域である。
本明細書では、高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステムおよび方法について説明する。方法は、1つ以上のマイクロプロセッサを含む1つ以上のコンピュータに少なくとも1つのサブネットを提供することを備え得、少なくとも1つのサブネットは、1つ以上のスイッチを含み、1つ以上のスイッチは少なくともリーフスイッチを含み、1つ以上のスイッチの各々は複数のポートを含み、1つ以上のスイッチの各々は少なくとも1つの属性を含み、少なくとも1つのサブネットはさらに、複数のホストチャネルアダプタを含み、複数のホストチャネルアダプタは、1つ以上のスイッチを介して相互接続され、少なくとも1つのサブネットはさらに、複数のエンドノードを含み、複数のエンドノードの各々は、複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、少なくとも1つのサブネットはさらに、サブネットマネージャを含み、サブネットマネージャは1つ以上のスイッチの1つまたは複数のホストチャネルアダプタの1つで実行される。方法は、1つ以上のスイッチ上の複数のポートの各ポートをスイッチポートステータスに関連付けることができる。方法は、各スイッチ上の複数のポートの各ポートに関連付けられる各スイッチポートステータスを、関連付けられるスイッチにおける少なくとも1つの属性で表すことができる。
本発明は、同様の参照番号が同様の要素を指している添付図面の図において、限定のためではなく例示のために説明されている。なお、この開示における「ある」または「1つの」または「いくつかの」実施形態への参照は必ずしも同じ実施形態に対するものではなく、そのような参照は少なくとも1つを意味する。特定の実現例が説明されるが、これらの特定の実現例が例示的な目的のためにのみ提供されることが理解される。当業者であれば、他の構成要素および構成が、この発明の範囲および精神から逸脱することなく使用され得ることを認識するであろう。
インフィニバンド(IB)は、インフィニバンド・トレード・アソシエーション(InfiniBandTMTrade Association)によって開発されたオープン標準無損失ネットワーク技術である。この技術は、特に高性能コンピューティング(high-performance computing:HPC)アプリケーションおよびデータセンタを対象とする、高スループットおよび少ない待ち時間の通信を提供するシリアルポイントツーポイント全二重相互接続(serial point-to-point full-duplex interconnect)に基づいている。
一実施形態によれば、IBネットワークは、ネットワークファブリックを共有するシステムの論理グループの分離をもたらすためにセキュリティメカニズムとしてパーティショニングをサポートし得る。ファブリックにおけるノード上の各HCAポートは、1つ以上のパーティションのメンバであり得る。パーティションメンバーシップは、SMの一部であり得る集中型パーティションマネージャによって管理される。SMは、各ポートに関するパーティションメンバーシップ情報を、16ビットのパーティションキー(partition key:P_キー)のテーブルとして構成することができる。SMはまた、これらのポートを介してデータトラフィックを送信または受信するエンドノードに関連付けられたP_Key情報を含むパーティション実施テーブルを用いて、スイッチポートおよびルータポートを構成することができる。加えて、一般的な場合には、スイッチポートのパーティションメンバーシップは、(リンクに向かう)出口方向に向かってポートを介してルーティングされたLIDに間接的に関連付けられたすべてのメンバーシップの集合を表わし得る。
過去10年の間に、ハードウェア仮想化サポートによってCPUオーバーヘッドが実質的に排除され、メモリ管理ユニットを仮想化することによってメモリオーバーヘッドが著しく削減され、高速SANストレージまたは分散型ネットワークファイルシステムの利用によってストレージオーバーヘッドが削減され、シングルルートI/O仮想化(Single Root Input/Output Virtualization:SR−IOV)のようなデバイス・パススルー技術を使用することによってネットワークI/Oオーバーヘッドが削減されてきたことに応じて、仮想化された高性能コンピューティング(High Performance Computing:HPC)環境の将来見通しが大幅に改善されてきた。現在では、クラウドが、高性能相互接続ソリューションを用いて仮想HPC(virtual HPC:vHPC)クラスタに対応し、必要な性能を提供することができる。
一実施形態によれば、IBベースのHPCシステムのいくつかは、ファットツリートポロジーを採用して、ファットツリーが提供する有用な特性を利用する。これらの特性は、各送信元宛先ペア間の複数経路の利用可能性に起因する、フルバイセクション帯域幅および固有の耐故障性を含む。ファットツリーの背後にある初期の概念は、ツリーがトポロジーのルート(root)に近づくにつれて、より利用可能な帯域幅を用いて、ノード間のより太いリンクを採用することであった。より太いリンクは、上位レベルのスイッチにおける輻輳を回避するのに役立てることができ、バイセクション帯域幅が維持される。
一実施形態に従うと、I/O仮想化(I/O Virtualization:IOV)は、基礎をなす物理リソースに仮想マシン(VM)がアクセスすることを可能にすることによって、I/Oを利用可能にすることができる。ストレージトラフィックとサーバ間通信とを組合せると、シングルサーバのI/Oリソースにとって抗し難い高い負荷が課され、結果として、データの待機中に、バックログが発生し、プロセッサがアイドル状態になる可能性がある。I/O要求の数が増えるにつれて、IOVにより利用可能性をもたらすことができ、最新のCPU仮想化において見られる性能レベルに匹敵するように、(仮想化された)I/Oリソースの性能、スケーラビリティおよび融通性を向上させることができる。
さまざまなタイプのSR−IOVモデル(たとえば共有ポートモデル、仮想スイッチモデルおよび仮想ポートモデル)があり得る。
図5は、一実施形態に従った例示的なvSwitchアーキテクチャを示す。図に示されるように、ホスト400(たとえばホストチャネルアダプタ)はハイパーバイザ410と対話することができ、当該ハイパーバイザ410は、さまざまな仮想機能430、440および450をいくつかの仮想マシンに割当てることができる。同様に、物理機能はハイパーバイザ410によって処理することができる。仮想スイッチ415もハイパーバイザ401によって処理することができる。
図6は、一実施形態に従った例示的なvPortの概念を示す。図に示されるように、ホスト300(たとえばホストチャネルアダプタ)は、さまざまな仮想機能330、340および350をいくつかの仮想マシンに割当てることができるハイパーバイザ410と対話することができる。同様に、物理機能はハイパーバイザ310によって処理することができる。
一実施形態に従うと、本開示は、LIDが予めポピュレートされたvSwitchアーキテクチャを提供するためのシステムおよび方法を提供する。
一実施形態に従うと、本開示は、動的LID割当てがなされたvSwitchアーキテクチャを提供するためのシステムおよび方法を提供する。
図9は、一実施形態に従った、動的LID割当てがなされてLIDが予めポピュレートされたvSwitchを備えた例示的なvSwitchアーキテクチャを示す。図に示されるように、いくつかのスイッチ501〜504は、ネットワーク切替環境800(たとえばIBサブネット)内においてインフィニバンドファブリックなどのファブリックのメンバ間で通信を確立することができる。ファブリックはホストチャネルアダプタ510、520、530などのいくつかのハードウェアデバイスを含み得る。ホストチャネルアダプタ510、520および530は、それぞれ、さらに、ハイパーバイザ511、521および531と対話することができる。各々のハイパーバイザは、さらに、ホストチャネルアダプタと共に、いくつかの仮想機能514、515、516、524、525、526、534、535および536と対話し、設定し、いくつかの仮想マシンに割当てることができる。たとえば、仮想マシン1 550は、ハイパーバイザ511によって仮想機能1 514に割当てることができる。ハイパーバイザ511は、加えて、仮想マシン2 551を仮想機能2 515に割当てることができる。ハイパーバイザ521は、仮想マシン3 552を仮想機能3 526に割当てることができる。ハイパーバイザ531は、さらに、仮想マシン4 553を仮想機能2 535に割当てることができる。ハイパーバイザは、ホストチャネルアダプタの各々の上において十分な機能を有する物理機能513、523および533を介してホストチャネルアダプタにアクセスすることができる。
一実施形態によれば、本開示の実施形態は、単一サブネット内にインフィニバンドファブリックを提供することに加えて、2つ以上のサブネットにまたがるインフィニバンドファブリックを提供することもできる。
実施形態によれば、IB規格の下で、リンクステータスの変化を観察するために、IB規格は、任意のポート状態がいつ変化したかを示し得る、各ポート(例えば、任意の所与のスイッチまたは仮想スイッチにおける各ポート)における属性を定義する。SMがファブリック内の任意のポートにおけるステータスが状態を変更したかどうかを判断するために、SMは各ポートに対してサブネット管理パケットを送信して、ポートステータスが変化したかどうかを判断しなければならない。
図15は、一実施形態による、リンク安定性のスケーラブルな表現を示す。より具体的には、図15は、リンク安定性のスケーラブル表現を表す属性を有するスイッチを示す。
図16は、一実施形態による、リンク可用性のスケーラブルな表現を示す。より具体的には、図16は、リンク可用性のスケーラブル表現を表す属性を有するスイッチを示す。
Claims (19)
- 高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステムであって、
1つ以上のマイクロプロセッサと、
少なくとも1つのサブネットとを備え、前記少なくとも1つのサブネットは、
1つ以上のスイッチを含み、前記1つ以上のスイッチは少なくともリーフスイッチを含み、前記1つ以上のスイッチの各々は複数のポートを含み、前記少なくとも1つのサブネットはさらに、
複数のホストチャネルアダプタを含み、前記複数のホストチャネルアダプタは、前記1つ以上のスイッチを介して相互接続され、前記少なくとも1つのサブネットはさらに、
複数のエンドノードを含み、前記複数のエンドノードの各々は、前記複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、前記少なくとも1つのサブネットはさらに、
前記1つ以上のスイッチの1つまたは前記複数のホストチャネルアダプタの1つで実行されるサブネットマネージャを含み、
前記1つ以上のスイッチの各々は少なくとも1つの属性を含み、
前記1つ以上のスイッチ上の前記複数のポートの各ポートは、スイッチポートステータスに関連付けられ、
各スイッチ上の前記複数のポートの各ポートに関連付けられる各スイッチポートステータスは、関連付けられるスイッチにおける前記少なくとも1つの属性で表され、
前記複数のホストチャネルアダプタのうちのあるホストチャネルアダプタは仮想スイッチを含み、前記仮想スイッチは複数の仮想スイッチポートを含み、
各仮想スイッチポートは仮想スイッチポートステータスに関連付けられ、
各仮想スイッチポートに関連付けられる各仮想スイッチポートステータスは、前記仮想スイッチにおける少なくとも1つの属性で表される、高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステム。 - 前記1つ以上のスイッチ上の前記複数のポートの各ポートは、拡張リンクステータスに関連付けられており、
各スイッチ上の前記複数のポートの各ポートに関連付けられる各拡張リンクステータスは、関連付けられるスイッチにおける前記少なくとも1つの属性で表される、請求項1に記載のシステム。 - 前記サブネットマネージャは、1つの動作を使用して前記1つ以上のスイッチのうちの1つのスイッチ上のポートについて前記スイッチポートステータスを判断する、請求項1または2に記載のシステム。
- 前記1つの動作は、サブネット管理パケットである、請求項3に記載のシステム。
- 前記サブネットマネージャは、1つの動作を使用して前記1つ以上のスイッチのうちの1つのスイッチ上の各ポートについて前記拡張リンクステータスを判断する、請求項2に記載のシステム。
- 前記1つの動作は、サブネット管理パケットである、請求項5に記載のシステム。
- 高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするための方法であって、
1つ以上のマイクロプロセッサを含む1つ以上のコンピュータに、
少なくとも1つのサブネットを提供することを備え、前記少なくとも1つのサブネットは、
1つ以上のスイッチを含み、前記1つ以上のスイッチは少なくともリーフスイッチを含み、前記1つ以上のスイッチの各々は複数のポートを含み、前記1つ以上のスイッチの各々は少なくとも1つの属性を含み、前記少なくとも1つのサブネットはさらに、
複数のホストチャネルアダプタを含み、前記複数のホストチャネルアダプタは、前記1つ以上のスイッチを介して相互接続され、前記少なくとも1つのサブネットはさらに、
複数のエンドノードを含み、前記複数のエンドノードの各々は、前記複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、前記少なくとも1つのサブネットはさらに、
前記1つ以上のスイッチの1つまたは前記複数のホストチャネルアダプタの1つで実行されるサブネットマネージャを含み、前記方法はさらに、
前記1つ以上のスイッチ上の前記複数のポートの各ポートを、スイッチポートステータスに関連付けることと、
各スイッチ上の前記複数のポートの各ポートに関連付けられる各スイッチポートステータスを、関連付けられるスイッチにおける前記少なくとも1つの属性で表すこととを備え、
前記複数のホストチャネルアダプタのうちのあるホストチャネルアダプタは仮想スイッチを含み、前記仮想スイッチは複数の仮想スイッチポートを含み、
各仮想スイッチポートは仮想スイッチポートステータスに関連付けられ、
各仮想スイッチポートに関連付けられる各仮想スイッチポートステータスは、前記仮想スイッチにおける少なくとも1つの属性で表される、高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするための方法。 - 前記1つ以上のスイッチ上の前記複数のポートの各ポートを、拡張リンクステータスに関連付けることと、
各スイッチ上の前記複数のポートの各ポートに関連付けられる各拡張リンクステータスを、関連付けられるスイッチにおける前記少なくとも1つの属性で表すこととをさらに備える、請求項7に記載の方法。 - 前記サブネットマネージャによって、1つの動作を使用して前記1つ以上のスイッチのうちの1つのスイッチ上の各ポートについて前記スイッチポートステータスを判断することをさらに備える、請求項8に記載の方法。
- 前記1つの動作は、サブネット管理パケットである、請求項9に記載の方法。
- 前記サブネットマネージャによって、1つの動作を使用して前記1つ以上のスイッチのうちの1つのスイッチ上の各ポートについて前記拡張リンクステータスを判断することをさらに備える、請求項8に記載の方法。
- 前記1つの動作は、サブネット管理パケットである、請求項11に記載の方法。
- 高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするための命令を含む、コンピュータ可読プログラムであって、前記命令は、1つ以上のコンピュータによって読み取られ実行されると、前記1つ以上のコンピュータに、
1つ以上のマイクロプロセッサを含む1つ以上のコンピュータに
少なくとも1つのサブネットを提供することを含むステップを実行させ、前記少なくとも1つのサブネットは、
1つ以上のスイッチを含み、前記1つ以上のスイッチは少なくともリーフスイッチを含み、前記1つ以上のスイッチの各々は複数のポートを含み、前記1つ以上のスイッチの各々は少なくとも1つの属性を含み、前記少なくとも1つのサブネットはさらに、
複数のホストチャネルアダプタを含み、前記複数のホストチャネルアダプタは、前記1つ以上のスイッチを介して相互接続され、前記少なくとも1つのサブネットはさらに、
複数のエンドノードを含み、前記複数のエンドノードの各々は、前記複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、前記少なくとも1つのサブネットはさらに、
前記1つ以上のスイッチの1つまたは前記複数のホストチャネルアダプタの1つで実行されるサブネットマネージャを含み、前記命令は、さらに、1つ以上のコンピュータによって読み取られ実行されると、前記1つ以上のコンピュータに、
前記1つ以上のスイッチ上の前記複数のポートの各ポートを、スイッチポートステータスに関連付けることと、
各スイッチ上の前記複数のポートの各ポートに関連付けられる各スイッチポートステータスを、関連付けられるスイッチにおける前記少なくとも1つの属性で表すこととを含むステップを実行させる、高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするための命令を含み、
前記複数のホストチャネルアダプタのうちのあるホストチャネルアダプタは仮想スイッチを含み、前記仮想スイッチは複数の仮想スイッチポートを含み、
各仮想スイッチポートは仮想スイッチポートステータスに関連付けられ、
各仮想スイッチポートに関連付けられる各仮想スイッチポートステータスは、前記仮想スイッチにおける少なくとも1つの属性で表される、コンピュータ可読プログラム。 - 前記ステップは、前記1つ以上のスイッチ上の前記複数のポートの各ポートを、拡張リンクステータスに関連付けることと、
各スイッチ上の前記複数のポートの各ポートに関連付けられる各拡張リンクステータスを、関連付けられるスイッチにおける前記少なくとも1つの属性で表すこととをさらに備える、請求項13に記載のコンピュータ可読プログラム。 - 前記ステップは、前記サブネットマネージャによって、1つの動作を使用して前記1つ以上のスイッチのうちの1つのスイッチ上の各ポートについて前記スイッチポートステータスを判断することをさらに備える、請求項14に記載のコンピュータ可読プログラム。
- 前記1つの動作は、サブネット管理パケットである、請求項15に記載のコンピュータ可読プログラム。
- 前記ステップは、前記サブネットマネージャによって、1つの動作を使用して前記1つ以上のスイッチのうちの1つのスイッチ上の各ポートについて前記拡張リンクステータスを判断することをさらに備える、請求項14に記載のコンピュータ可読プログラム。
- 前記1つの動作は、サブネット管理パケットである、請求項17に記載のコンピュータ可読プログラム。
- コンピュータシステムによって実行されると、前記コンピュータシステムに請求項7〜12のいずれか1項に記載の方法を実行させる、機械可読フォーマットにおけるプログラム命令を含む、コンピュータプログラム。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662287704P | 2016-01-27 | 2016-01-27 | |
US62/287,704 | 2016-01-27 | ||
US15/413,075 US10200308B2 (en) | 2016-01-27 | 2017-01-23 | System and method for supporting a scalable representation of link stability and availability in a high performance computing environment |
US15/412,995 US10594627B2 (en) | 2016-01-27 | 2017-01-23 | System and method for supporting scalable representation of switch port status in a high performance computing environment |
US15/413,075 | 2017-01-23 | ||
US15/412,995 | 2017-01-23 | ||
PCT/US2017/014963 WO2017132271A1 (en) | 2016-01-27 | 2017-01-25 | System and method for supporting scalable representation of switch port status in a high performance computing environment |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019503597A JP2019503597A (ja) | 2019-02-07 |
JP2019503597A5 JP2019503597A5 (ja) | 2020-01-30 |
JP6902527B2 true JP6902527B2 (ja) | 2021-07-14 |
Family
ID=65528945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018504729A Active JP6902527B2 (ja) | 2016-01-27 | 2017-01-25 | 高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステムおよび方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3408983B1 (ja) |
JP (1) | JP6902527B2 (ja) |
CN (1) | CN107852377B (ja) |
WO (1) | WO2017132271A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10469357B2 (en) | 2018-01-12 | 2019-11-05 | Juniper Networks, Inc. | Node representations of packet forwarding path elements |
CN108696436A (zh) * | 2018-08-15 | 2018-10-23 | 无锡江南计算技术研究所 | 一种分布式网络拓扑探查与路由分发系统及方法 |
US11444881B2 (en) * | 2019-11-19 | 2022-09-13 | Oracle International Corporation | System and method for supporting use of forward and backward congestion notifications in a private fabric in a high performance computing environment |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1056464A (ja) * | 1996-08-13 | 1998-02-24 | Fujitsu Ltd | Atm化装置における回線障害監視方法 |
US20030005039A1 (en) * | 2001-06-29 | 2003-01-02 | International Business Machines Corporation | End node partitioning using local identifiers |
US20040030763A1 (en) * | 2002-08-08 | 2004-02-12 | Manter Venitha L. | Method for implementing vendor-specific mangement in an inifiniband device |
US8526427B1 (en) * | 2003-10-21 | 2013-09-03 | Cisco Technology, Inc. | Port-based loadsharing for a satellite switch |
US7925477B2 (en) * | 2004-09-20 | 2011-04-12 | The Mathworks, Inc. | Method and system for transferring data between a discrete event environment and an external environment |
US7200704B2 (en) * | 2005-04-07 | 2007-04-03 | International Business Machines Corporation | Virtualization of an I/O adapter port using enablement and activation functions |
EP2850804B1 (en) * | 2012-05-10 | 2020-09-23 | Oracle International Corporation | System and method for supporting state synchronization in a network environment |
US9130858B2 (en) * | 2012-08-29 | 2015-09-08 | Oracle International Corporation | System and method for supporting discovery and routing degraded fat-trees in a middleware machine environment |
US9135198B2 (en) * | 2012-10-31 | 2015-09-15 | Avago Technologies General Ip (Singapore) Pte Ltd | Methods and structure for serial attached SCSI expanders that self-configure by setting routing attributes of their ports based on SMP requests |
CN104407911B (zh) * | 2014-10-31 | 2018-03-20 | 新华三技术有限公司 | 虚拟机迁移方法及装置 |
-
2017
- 2017-01-25 JP JP2018504729A patent/JP6902527B2/ja active Active
- 2017-01-25 CN CN201780002356.0A patent/CN107852377B/zh active Active
- 2017-01-25 EP EP17705998.7A patent/EP3408983B1/en active Active
- 2017-01-25 WO PCT/US2017/014963 patent/WO2017132271A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017132271A1 (en) | 2017-08-03 |
CN107852377B (zh) | 2021-06-25 |
CN107852377A (zh) | 2018-03-27 |
EP3408983B1 (en) | 2021-12-08 |
JP2019503597A (ja) | 2019-02-07 |
EP3408983A1 (en) | 2018-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6850804B2 (ja) | 高性能コンピューティング環境においてデュアルポート仮想ルータをサポートするためのシステムおよび方法 | |
JP7109527B2 (ja) | 無損失ネットワークにおける効率的な仮想化のためのシステムおよび方法 | |
JP6931644B2 (ja) | 高性能コンピューティング環境におけるサブネット間パーティションをサポートするためのシステムおよび方法 | |
US11716292B2 (en) | System and method for supporting scalable representation of switch port status in a high performance computing environment | |
JP6957451B2 (ja) | 高性能コンピューティング環境での線形転送テーブル(lft)探索のためにグローバルルートヘッダ(grh)におけるサブネットプレフィックス値を用いるためのシステムおよび方法 | |
JP6920281B2 (ja) | 高性能コンピューティング環境において仮想マシンの仮想マシンファブリックプロファイルを規定するためのシステムおよび方法 | |
US11132216B2 (en) | System and method for providing an InfiniBand SR-IOV vSwitch architecture for a high performance cloud computing environment | |
JP2022003791A (ja) | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 | |
JP6902527B2 (ja) | 高性能コンピューティング環境においてスイッチポートステータスのスケーラブルな表現をサポートするためのシステムおよび方法 | |
JP2024096844A (ja) | 無損失ネットワークにおける効率的な仮想化のためのシステムおよび方法 | |
JP2024096845A (ja) | 無損失ネットワークにおける効率的な仮想化のためのシステムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210621 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902527 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |