JP2019503598A - 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 - Google Patents
高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2019503598A JP2019503598A JP2018504731A JP2018504731A JP2019503598A JP 2019503598 A JP2019503598 A JP 2019503598A JP 2018504731 A JP2018504731 A JP 2018504731A JP 2018504731 A JP2018504731 A JP 2018504731A JP 2019503598 A JP2019503598 A JP 2019503598A
- Authority
- JP
- Japan
- Prior art keywords
- switches
- subnet
- key
- host channel
- switch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000005192 partition Methods 0.000 claims abstract description 108
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 80
- 239000004744 fabric Substances 0.000 description 78
- 230000003863 physical function Effects 0.000 description 38
- 238000007726 management method Methods 0.000 description 24
- 238000013508 migration Methods 0.000 description 17
- 230000005012 migration Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000000926 separation method Methods 0.000 description 14
- 230000007246 mechanism Effects 0.000 description 12
- 238000007449 liver function test Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 239000004230 Fast Yellow AB Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 101100216234 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cut20 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100128228 Schizosaccharomyces pombe (strain 972 / ATCC 24843) lid2 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000001341 grazing-angle X-ray diffraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002151 riboflavin Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/25—Routing or path finding in a switch fabric
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/44—Star or tree networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/046—Network management architectures or arrangements comprising network management agents or mobile agents therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0895—Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0882—Utilisation of link capacity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/48—Routing tree calculation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
- H04L49/111—Switch interfaces, e.g. port details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
- H04L49/113—Arrangements for redundant switching, e.g. using parallel planes
- H04L49/118—Address processing within a device, e.g. using internal ID or tags for routing within a switch
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/15—Interconnection of switching modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/30—Peripheral units, e.g. input or output ports
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/35—Switches specially adapted for specific applications
- H04L49/356—Switches specially adapted for specific applications for storage area networks
- H04L49/358—Infiniband Switches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/70—Virtual switches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45579—I/O management, e.g. providing access to device drivers or storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/40—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
この特許文献の開示の一部は、著作権保護の対象となる資料を含む。著作権保有者は、この特許文献または特許開示の、それが特許商標庁の特許ファイルまたは記録に現れているとおりの、何人による複写複製にも異議を唱えないが、それ以外の場合にはすべての著作権をどのようなものであろうと所有する。
本発明は、一般にコンピュータシステムに関し、特に、高性能コンピューティング環境においてスケーラブルビットマップに基づくP_Keyテーブルをサポートすることに関する。
導入されるクラウドコンピューティングアーキテクチャがより大規模になるのに応じて、従来のネットワークおよびストレージに関する性能および管理の障害が深刻な問題になってきている。クラウドコンピューティングファブリックのための基礎としてインフィニバンド(登録商標)(InfiniBand:IB)技術などの高性能な無損失相互接続を用いることへの関心がますます高まってきている。これは、本発明の実施形態が対応するように意図された一般領域である。
本明細書では、高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法を説明する。ある例示的方法は、1つ以上のスイッチを含む少なくとも1つのサブネットを提供し得、1つ以上のスイッチは少なくともリーフスイッチを含み、1つ以上のスイッチの各々は、複数のスイッチポートを含み、少なくとも1つのサブネットはさらに、複数のホストチャネルアダプタを含み、ホストチャネルアダプタの1つ以上は、少なくとも1つの仮想機能、少なくとも1つの仮想スイッチ、および少なくとも1つの物理機能を含み、複数のホストチャネルアダプタの各々は、複数のホストチャネルアダプタポートを含み、複数のホストチャネルアダプタは、1つ以上のスイッチを介して相互接続され、少なくとも1つのサブネットはさらに、複数の物理ホストおよびハイパーバイザを含み、複数の物理ホストおよびハイパーバイザの各々は、複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、少なくとも1つのサブネットはさらに、複数の仮想マシンを含み、複数の仮想マシンの各々は、少なくとも1つの仮想機能に関連付けられている。この方法は、複数の物理ホストおよび仮想マシンの各々を複数のパーティションの少なくとも1つに関連付けることができ、複数のパーティションの各々はP_Key値に関連付けられる。この方法は、1つ以上のスイッチポートの各々を、複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けることができる。この方法は、ホストチャネルアダプタポートの各々を、複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けることができる。
本発明は、同様の参照番号が同様の要素を指している添付図面の図において、限定のためではなく例示のために説明されている。なお、この開示における「ある」または「1つの」または「いくつかの」実施形態への参照は必ずしも同じ実施形態に対するものではなく、そのような参照は少なくとも1つを意味する。特定の実現例が説明されるが、これらの特定の実現例が例示的な目的のためにのみ提供されることが理解される。当業者であれば、他の構成要素および構成が、この発明の範囲および精神から逸脱することなく使用され得ることを認識するであろう。
インフィニバンド(IB)は、インフィニバンド・トレード・アソシエーション(InfiniBandTMTrade Association)によって開発されたオープン標準無損失ネットワーク技術である。この技術は、特に高性能コンピューティング(high-performance computing:HPC)アプリケーションおよびデータセンタを対象とする、高スループットおよび少ない待ち時間の通信を提供するシリアルポイントツーポイント全二重相互接続(serial point-to-point full-duplex interconnect)に基づいている。
一実施形態によれば、IBネットワークは、ネットワークファブリックを共有するシステムの論理グループの分離をもたらすためにセキュリティメカニズムとしてパーティショニングをサポートし得る。ファブリックにおけるノード上の各HCAポートは、1つ以上のパーティションのメンバであり得る。パーティションメンバーシップは、SMの一部であり得る集中型パーティションマネージャによって管理される。SMは、各ポートに関するパーティションメンバーシップ情報を、16ビットのパーティションキー(partition key:P_キー)のテーブルとして構成することができる。SMはまた、これらのポートを介してデータトラフィックを送信または受信するエンドノードに関連付けられたP_Key情報を含むパーティション実施テーブルを用いて、スイッチポートおよびルータポートを構成することができる。加えて、一般的な場合には、スイッチポートのパーティションメンバーシップは、(リンクに向かう)出口方向に向かってポートを介してルーティングされたLIDに間接的に関連付けられたすべてのメンバーシップの集合を表わし得る。
過去10年の間に、ハードウェア仮想化サポートによってCPUオーバーヘッドが実質的に排除され、メモリ管理ユニットを仮想化することによってメモリオーバーヘッドが著しく削減され、高速SANストレージまたは分散型ネットワークファイルシステムの利用によってストレージオーバーヘッドが削減され、シングルルートI/O仮想化(Single Root Input/Output Virtualization:SR−IOV)のようなデバイス・パススルー技術を使用することによってネットワークI/Oオーバーヘッドが削減されてきたことに応じて、仮想化された高性能コンピューティング(High Performance Computing:HPC)環境の将来見通しが大幅に改善されてきた。現在では、クラウドが、高性能相互接続ソリューションを用いて仮想HPC(virtual HPC:vHPC)クラスタに対応し、必要な性能を提供することができる。
一実施形態によれば、IBベースのHPCシステムのいくつかは、ファットツリートポロジーを採用して、ファットツリーが提供する有用な特性を利用する。これらの特性は、各送信元宛先ペア間の複数経路の利用可能性に起因する、フルバイセクション帯域幅および固有の耐故障性を含む。ファットツリーの背後にある初期の概念は、ツリーがトポロジーのルート(root)に近づくにつれて、より利用可能な帯域幅を用いて、ノード間のより太いリンクを採用することであった。より太いリンクは、上位レベルのスイッチにおける輻輳を回避するのに役立てることができ、バイセクション帯域幅が維持される。
一実施形態に従うと、I/O仮想化(I/O Virtualization:IOV)は、基礎をなす物理リソースに仮想マシン(VM)がアクセスすることを可能にすることによって、I/Oを利用可能にすることができる。ストレージトラフィックとサーバ間通信とを組合せると、シングルサーバのI/Oリソースにとって抗し難い高い負荷が課され、結果として、データの待機中に、バックログが発生し、プロセッサがアイドル状態になる可能性がある。I/O要求の数が増えるにつれて、IOVにより利用可能性をもたらすことができ、最新のCPU仮想化において見られる性能レベルに匹敵するように、(仮想化された)I/Oリソースの性能、スケーラビリティおよび融通性を向上させることができる。
さまざまなタイプのSR−IOVモデル(たとえば共有ポートモデル、仮想スイッチモデルおよび仮想ポートモデル)があり得る。
図5は、一実施形態に従った例示的なvSwitchアーキテクチャを示す。図に示されるように、ホスト400(たとえばホストチャネルアダプタ)はハイパーバイザ410と対話することができ、当該ハイパーバイザ410は、さまざまな仮想機能430、440および450をいくつかの仮想マシンに割当てることができる。同様に、物理機能はハイパーバイザ410によって処理することができる。仮想スイッチ415もハイパーバイザ401によって処理することができる。
図6は、一実施形態に従った例示的なvPortの概念を示す。図に示されるように、ホスト300(たとえばホストチャネルアダプタ)は、さまざまな仮想機能330、340および350をいくつかの仮想マシンに割当てることができるハイパーバイザ410と対話することができる。同様に、物理機能はハイパーバイザ310によって処理することができる。
一実施形態に従うと、本開示は、LIDが予めポピュレートされたvSwitchアーキテクチャを提供するためのシステムおよび方法を提供する。
一実施形態に従うと、本開示は、動的LID割当てがなされたvSwitchアーキテクチャを提供するためのシステムおよび方法を提供する。
図9は、一実施形態に従った、動的LID割当てがなされてLIDが予めポピュレートされたvSwitchを備えた例示的なvSwitchアーキテクチャを示す。図に示されるように、いくつかのスイッチ501〜504は、ネットワーク切替環境800(たとえばIBサブネット)内においてインフィニバンドファブリックなどのファブリックのメンバ間で通信を確立することができる。ファブリックはホストチャネルアダプタ510、520、530などのいくつかのハードウェアデバイスを含み得る。ホストチャネルアダプタ510、520および530は、それぞれ、さらに、ハイパーバイザ511、521および531と対話することができる。各々のハイパーバイザは、さらに、ホストチャネルアダプタと共に、いくつかの仮想機能514、515、516、524、525、526、534、535および536と対話し、設定し、いくつかの仮想マシンに割当てることができる。たとえば、仮想マシン1 550は、ハイパーバイザ511によって仮想機能1 514に割当てることができる。ハイパーバイザ511は、加えて、仮想マシン2 551を仮想機能2 515に割当てることができる。ハイパーバイザ521は、仮想マシン3 552を仮想機能3 526に割当てることができる。ハイパーバイザ531は、さらに、仮想マシン4 553を仮想機能2 535に割当てることができる。ハイパーバイザは、ホストチャネルアダプタの各々の上において十分な機能を有する物理機能513、523および533を介してホストチャネルアダプタにアクセスすることができる。
一実施形態によれば、本開示の実施形態は、単一サブネット内にインフィニバンドファブリックを提供することに加えて、2つ以上のサブネットにまたがるインフィニバンドファブリックを提供することもできる。
一実施形態によれば、仮想マシンを使用を提供された拡張されたインフィニバンドネットワークのため、可能性のあるパーティションの数が劇的に増加している。しかしながら、P_Key管理およびルーティングを扱う現在の方法では、トラフィックがファブリックを通過する際にかなりのオーバヘッド時間が追加される。従来、インフィニバンド規格では、SMが索引付けされたテーブルとしてアクセスできる16ビットのP_Key値の配列として、P_Keyテーブルを定義している。この規格のハードウェア実現例は、ワイヤ速度パケットレートでIBパケットのパーティションチェックを実行するためにルックアップを実行するために連想メモリを使用することを意味する。実際には、これはハードウェアにより実現されるP_Keyテーブルの可能なサイズを、16ビットのP_Key値が表す64K値空間よりも桁違いに小さく制限する。
一実施形態によれば、上記のビットマップに基づく実現例は、レガシーサブネットマネージャ実現例によって直接使用することができないという点で問題がある。これは、インフィニバンド規格(インフィニバンド(登録商標)トレード・アソシエーション・アーキテクチャ規格、第1巻、バージョン1.3(2015年3月リリース))で定義されているサブネットマネージャなどの、現在定義されている管理エンティティが、ビットマップに基づくP_Key実現例と対話するように定義されていないためであり、それらは、代わりに、IB規格によって定義されたレガシーP_Keyテーブルに基づくスキームと対話するように定義される。
Claims (22)
- 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムであって、
1つ以上のマイクロプロセッサと、
少なくとも1つのサブネットとを備え、前記少なくとも1つのサブネットは、
1つ以上のスイッチを含み、前記1つ以上のスイッチは少なくともリーフスイッチを含み、前記1つ以上のスイッチの各々は、複数のスイッチポートを含み、前記少なくとも1つのサブネットはさらに、
複数のホストチャネルアダプタを含み、各ホストチャネルアダプタは、少なくとも1つのホストチャネルアダプタポートを含み、前記少なくとも1つのサブネットはさらに、
複数のエンドノードを含み、前記複数のエンドノードの各々は、前記複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、
前記複数のエンドノードの各々は、複数のパーティションのうちの少なくとも1つに関連付けられ、
前記複数のパーティションの各々は、P_Key値に関連付けられ、
前記複数のスイッチポートのうちのあるスイッチポートは、複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けられ、
前記複数のホストチャネルアダプタポートのうちのあるホストチャネルアダプタポートは、前記複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けられる、システム。 - 前記1つ以上のスイッチの1つまたは前記複数のホストチャネルアダプタの1つで実行されるサブネットマネージャをさらに備え、
前記サブネットマネージャは、前記1つ以上のスイッチの各々上の複数のポートを通る許可されたトラフィックおよび許可されないトラフィックを判断する、請求項1に記載のシステム。 - 前記サブネットマネージャは、前記1つ以上のスイッチの各々上の複数のポートの各々を通る許可されたトラフィックおよび許可されないトラフィックの前記判断に基づいて、前記ビットマップに基づくP_Keyテーブルの各々を構成する、請求項2に記載のシステム。
- 前記1つ以上のスイッチのうちのあるスイッチが、P_Key値を含む少なくともヘッダを含むパケットを、アドレス指定されたポートで受信すると、前記1つ以上のスイッチのうちの前記あるスイッチは、許可されたまたは許可されないインジケータを受信するよう、前記パケットの前記ヘッダに含まれる前記P_Key値を、関連付けられるビットマップに基づくP_Key値で索引付けする、請求項1に記載のシステム。
- 許可された値を受信すると、前記スイッチは、前記パケットが前記アドレス指定されたポートを通過することを可能にする、請求項4に記載のシステム。
- 許可されない値を受信すると、前記スイッチは、前記パケットを前記アドレス指定されたポートでドロップする、請求項4に記載のシステム。
- 前記1つ以上のサブネットは、2つ以上のサブネットを含み、前記2つ以上のサブネットの各々は、前記2つ以上のサブネットの各々において少なくとも1つのルータによって相互接続される、先行する請求項のいずれか1つに記載のシステム。
- 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするための方法であって、
1つ以上のマイクロプロセッサを含む1つ以上のコンピュータに少なくとも1つのサブネットを提供することを備え、前記少なくとも1つのサブネットは、
1つ以上のスイッチを含み、前記1つ以上のスイッチは少なくともリーフスイッチを含み、前記1つ以上のスイッチの各々は、複数のスイッチポートを含み、前記少なくとも1つのサブネットはさらに、
複数のホストチャネルアダプタを含み、各ホストチャネルアダプタは、少なくとも1つのホストチャネルアダプタポートを含み、前記少なくとも1つのサブネットはさらに、
複数のエンドノードを含み、前記複数のエンドノードの各々は、前記複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、前記方法はさらに、
前記複数の物理ホスト仮想マシンの各々を複数のパーティションの少なくとも1つに関連付けることを備え、前記複数のパーティションの各々はP_Key値に関連付けられ、前記方法はさらに、
前記複数のスイッチポートのうちのあるスイッチポートを、複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けることと、
前記複数のホストチャネルアダプタポートのうちのあるホストチャネルアダプタポートを、前記複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けることとを備える、高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするための方法。 - 前記1つ以上のマイクロプロセッサを含む前記1つ以上のコンピュータにおいて、
前記1つ以上のスイッチの1つまたは前記複数のホストチャネルアダプタの1つで実行されるサブネットマネージャを提供することと、
前記サブネットマネージャによって、前記1つ以上のスイッチの各々上の複数のポートを通る許可されたトラフィックおよび許可されないトラフィックを判断することとをさらに備える、請求項8に記載の方法。 - 前記サブネットマネージャによって、前記1つ以上のスイッチの各々上の複数のポートの各々を通る許可されたトラフィックおよび許可されないトラフィックの前記判断に基づいて、前記ビットマップに基づくP_Keyテーブルの各々を構成することをさらに備える、請求項9に記載の方法。
- 前記1つ以上のスイッチのうちのあるスイッチが、P_Key値を含む少なくともヘッダを含むパケットを、アドレス指定されたポートで受信すると、許可されたまたは許可されないインジケータを受信するよう、前記1つ以上のスイッチのうちの前記あるスイッチによって、前記パケットの前記ヘッダに含まれる前記P_Key値を、関連付けられるビットマップに基づくP_Key値で索引付けすることをさらに備える、請求項8〜10のいずれか1つに記載の方法。
- 許可された値を受信すると、前記スイッチによって、前記パケットが前記アドレス指定されたポートを通過することを可能にすることをさらに備える、請求項11に記載の方法。
- 許可されない値を受信すると、前記スイッチによって、前記パケットを前記アドレス指定されたポートでドロップすることをさらに備える、請求項11に記載の方法。
- 前記1つ以上のサブネットは、2つ以上のサブネットを含み、前記2つ以上のサブネットの各々は、前記2つ以上のサブネットの各々において少なくとも1つのルータによって相互接続される、請求項8〜13のいずれか1つに記載の方法。
- 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするための命令をそこに記憶して含む、非一時的なコンピュータ可読記憶媒体であって、前記命令は、1つ以上のコンピュータによって読み取られ実行されると、前記1つ以上のコンピュータに、
1つ以上のマイクロプロセッサを含む1つ以上のコンピュータに少なくとも1つのサブネットを提供することを含むステップを実行させ、前記少なくとも1つのサブネットは、
1つ以上のスイッチを含み、前記1つ以上のスイッチは少なくともリーフスイッチを含み、前記1つ以上のスイッチの各々は、複数のスイッチポートを含み、前記少なくとも1つのサブネットはさらに、
複数のホストチャネルアダプタを含み、各ホストチャネルアダプタは、少なくとも1つのホストチャネルアダプタポートを含み、前記少なくとも1つのサブネットはさらに、
複数のエンドノードを含み、前記複数のエンドノードの各々は、前記複数のホストチャネルアダプタのうちの少なくとも1つのホストチャネルアダプタに関連付けられ、前記命令は、さらに、1つ以上のコンピュータによって読み取られ実行されると、前記1つ以上のコンピュータに、
前記複数のエンドノードの各々を複数のパーティションの少なくとも1つに関連付けることを含むステップを実行させ、前記複数のパーティションの各々はP_Key値に関連付けられ、前記命令は、さらに、1つ以上のコンピュータによって読み取られ実行されると、前記1つ以上のコンピュータに、
前記複数のスイッチポートのうちのあるスイッチポートを、複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けることと、
前記複数のホストチャネルアダプタポートのうちのあるホストチャネルアダプタポートを、前記複数のビットマップに基づくP_Keyテーブルのうちのあるビットマップに基づくP_Keyテーブルに関連付けることとを含むステップを実行させる、非一時的なコンピュータ可読記憶媒体。 - 前記ステップは、さらに、前記1つ以上のマイクロプロセッサを含む前記1つ以上のコンピュータにおいて、
前記1つ以上のスイッチの1つまたは前記複数のホストチャネルアダプタの1つで実行されるサブネットマネージャを提供することと、
前記サブネットマネージャによって、前記1つ以上のスイッチの各々上の複数のポートを通る許可されたトラフィックおよび許可されないトラフィックを判断することとを含む、請求項15に記載の非一時的なコンピュータ可読記憶媒体。 - 前記ステップは、さらに、前記サブネットマネージャによって、前記1つ以上のスイッチの各々上の複数のポートの各々を通る許可されたトラフィックおよび許可されないトラフィックの前記判断に基づいて、前記ビットマップに基づくP_Keyテーブルの各々を構成することを含む、請求項16に記載の非一時的なコンピュータ可読記憶媒体。
- 前記ステップは、さらに、前記1つ以上のスイッチのうちのあるスイッチが、P_Key値を含む少なくともヘッダを含むパケットを、アドレス指定されたポートで受信すると、許可されたまたは許可されないインジケータを受信するよう、前記1つ以上のスイッチのうちの前記あるスイッチによって、前記パケットの前記ヘッダに含まれる前記P_Key値を、関連付けられるビットマップに基づくP_Key値で索引付けすることを含む、請求項15〜17のいずれか1つに記載の一時的なコンピュータ可読記憶媒体。
- 前記ステップは、さらに、許可された値を受信すると、前記スイッチによって、前記パケットが前記アドレス指定されたポートを通過することを可能にすることを含む、請求項18に記載の非一時的なコンピュータ可読記憶媒体。
- 前記ステップは、さらに、許可されない値を受信すると、前記スイッチによって、前記パケットを前記アドレス指定されたポートでドロップすることを含む、請求項18に記載の非一時的なコンピュータ可読記憶媒体。
- コンピュータシステムによって実行されると、前記コンピュータシステムに請求項8〜14のいずれか1つに記載の方法を実行させる、機械可読フォーマットにおけるプログラム命令を含む、コンピュータプログラム。
- 非一時的な機械可読データ記憶媒体に記憶される請求項21のコンピュータプログラムを備えるコンピュータプログラム製品。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021145456A JP7297830B2 (ja) | 2016-01-27 | 2021-09-07 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
JP2023097755A JP2023120292A (ja) | 2016-01-27 | 2023-06-14 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662287704P | 2016-01-27 | 2016-01-27 | |
US62/287,704 | 2016-01-27 | ||
US15/412,972 | 2017-01-23 | ||
US15/412,972 US11271870B2 (en) | 2016-01-27 | 2017-01-23 | System and method for supporting scalable bit map based P_Key table in a high performance computing environment |
US15/415,497 | 2017-01-25 | ||
US15/415,497 US11770349B2 (en) | 2016-01-27 | 2017-01-25 | System and method for supporting configurable legacy P_Key table abstraction using a bitmap based hardware implementation in a high performance computing environment |
PCT/US2017/015156 WO2017132392A1 (en) | 2016-01-27 | 2017-01-26 | System and method for supporting scalable bit map based p_key table in a high performance computing environment |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021145456A Division JP7297830B2 (ja) | 2016-01-27 | 2021-09-07 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019503598A true JP2019503598A (ja) | 2019-02-07 |
JP2019503598A5 JP2019503598A5 (ja) | 2020-01-30 |
Family
ID=65528946
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018504731A Pending JP2019503598A (ja) | 2016-01-27 | 2017-01-26 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
JP2021145456A Active JP7297830B2 (ja) | 2016-01-27 | 2021-09-07 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
JP2023097755A Pending JP2023120292A (ja) | 2016-01-27 | 2023-06-14 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021145456A Active JP7297830B2 (ja) | 2016-01-27 | 2021-09-07 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
JP2023097755A Pending JP2023120292A (ja) | 2016-01-27 | 2023-06-14 | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3408982B1 (ja) |
JP (3) | JP2019503598A (ja) |
CN (1) | CN107852378B (ja) |
WO (1) | WO2017132392A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341082B2 (en) * | 2019-11-19 | 2022-05-24 | Oracle International Corporation | System and method for supporting target groups for congestion control in a private fabric in a high performance computing environment |
CN111309258B (zh) | 2020-02-14 | 2021-10-15 | 苏州浪潮智能科技有限公司 | 一种b+树的存取方法、装置和计算机可读存储介质 |
CN115459968B (zh) * | 2022-08-25 | 2023-06-06 | 中国人民解放军国防科技大学 | 用于高性能计算机系统的隔离方法及高性能计算机系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050271074A1 (en) * | 2004-06-08 | 2005-12-08 | Johnsen Bjorn D | Method and apparatus for verifying service level in a communications network |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08242240A (ja) * | 1995-03-06 | 1996-09-17 | Hitachi Ltd | Atm交換機およびパス切替方法 |
KR100776453B1 (ko) * | 2001-07-30 | 2007-11-16 | 엘지노텔 주식회사 | 에이티엠 교환기에서의 서브 포트 멀티캐스팅 방법 |
US20030174725A1 (en) * | 2002-03-15 | 2003-09-18 | Broadcom Corporation | IP multicast packet replication process and apparatus therefore |
US7221676B2 (en) * | 2002-07-30 | 2007-05-22 | Brocade Communications Systems, Inc. | Supporting local IB packet communication between separate subnets |
US7493409B2 (en) * | 2003-04-10 | 2009-02-17 | International Business Machines Corporation | Apparatus, system and method for implementing a generalized queue pair in a system area network |
US20050273650A1 (en) * | 2004-06-07 | 2005-12-08 | Tsou Henry H | Systems and methods for backing up computer data to disk medium |
US7443860B2 (en) * | 2004-06-08 | 2008-10-28 | Sun Microsystems, Inc. | Method and apparatus for source authentication in a communications network |
JP4368251B2 (ja) * | 2004-06-09 | 2009-11-18 | 富士通株式会社 | フレーム転送処理方法及び装置 |
US8756424B2 (en) * | 2010-11-30 | 2014-06-17 | Marvell Israel (M.I.S.L) Ltd. | Load balancing hash computation for network switches |
US9311122B2 (en) * | 2012-03-26 | 2016-04-12 | Oracle International Corporation | System and method for providing a scalable signaling mechanism for virtual machine migration in a middleware machine environment |
US9245626B2 (en) * | 2012-10-26 | 2016-01-26 | Cisco Technology, Inc. | System and method for packet classification and internet protocol lookup in a network environment |
-
2017
- 2017-01-26 WO PCT/US2017/015156 patent/WO2017132392A1/en active Application Filing
- 2017-01-26 JP JP2018504731A patent/JP2019503598A/ja active Pending
- 2017-01-26 EP EP17705514.2A patent/EP3408982B1/en active Active
- 2017-01-26 CN CN201780002357.5A patent/CN107852378B/zh active Active
-
2021
- 2021-09-07 JP JP2021145456A patent/JP7297830B2/ja active Active
-
2023
- 2023-06-14 JP JP2023097755A patent/JP2023120292A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050271074A1 (en) * | 2004-06-08 | 2005-12-08 | Johnsen Bjorn D | Method and apparatus for verifying service level in a communications network |
Non-Patent Citations (1)
Title |
---|
FEROZ ZAHID ET AL.: "artition-aware routing to improve network isolation in InfiniBand based multi-tenant clusters", 2015 15TH IEEE/ACM INTERNATIONAL SYMPOSIUM ON CLUSTER, CLOUD AND GRID COMPUTING, JPN6020045997, May 2015 (2015-05-01), pages 189 - 198, XP055322241, ISSN: 0004540072, DOI: 10.1109/CCGrid.2015.96 * |
Also Published As
Publication number | Publication date |
---|---|
JP2022003791A (ja) | 2022-01-11 |
JP2023120292A (ja) | 2023-08-29 |
EP3408982B1 (en) | 2020-12-09 |
EP3408982A1 (en) | 2018-12-05 |
WO2017132392A1 (en) | 2017-08-03 |
CN107852378B (zh) | 2020-12-08 |
CN107852378A (zh) | 2018-03-27 |
JP7297830B2 (ja) | 2023-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7407164B2 (ja) | 高性能コンピューティング環境における仮想ルータポートにわたるsmp接続性チェックのためのルータsma抽象化をサポートするためのシステムおよび方法 | |
JP7241146B2 (ja) | 高性能コンピューティング環境での線形転送テーブル(lft)探索のためにグローバルルートヘッダ(grh)におけるサブネットプレフィックス値を用いるためのシステムおよび方法 | |
JP7472200B2 (ja) | 無損失ネットワークにおける効率的な仮想化のためのシステムおよび方法 | |
JP6920281B2 (ja) | 高性能コンピューティング環境において仮想マシンの仮想マシンファブリックプロファイルを規定するためのシステムおよび方法 | |
US11716292B2 (en) | System and method for supporting scalable representation of switch port status in a high performance computing environment | |
JP6850804B2 (ja) | 高性能コンピューティング環境においてデュアルポート仮想ルータをサポートするためのシステムおよび方法 | |
CN107111513B (zh) | 为高性能云计算环境提供InfiniBand SR-IOV vSWITCH体系架构的系统和方法 | |
JP7297830B2 (ja) | 高性能コンピューティング環境においてスケーラブルなビットマップに基づくP_Keyテーブルをサポートするためのシステムおよび方法 | |
CN107852377B (zh) | 用于在高性能计算环境中支持交换机端口状况的可伸缩表示的系统和方法 | |
US20220174025A1 (en) | System and method for supporting scalable bit map based p_key table in a high performance computing environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191211 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210225 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210706 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20210907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210907 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220104 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220315 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220405 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220412 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220517 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220517 |