JP7242847B2 - 光ネットワークを用いた再構成可能な計算ポッド - Google Patents
光ネットワークを用いた再構成可能な計算ポッド Download PDFInfo
- Publication number
- JP7242847B2 JP7242847B2 JP2021522036A JP2021522036A JP7242847B2 JP 7242847 B2 JP7242847 B2 JP 7242847B2 JP 2021522036 A JP2021522036 A JP 2021522036A JP 2021522036 A JP2021522036 A JP 2021522036A JP 7242847 B2 JP7242847 B2 JP 7242847B2
- Authority
- JP
- Japan
- Prior art keywords
- workload
- building blocks
- dimension
- data
- building block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003287 optical effect Effects 0.000 title claims description 111
- 238000012545 processing Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 13
- 239000000835 fiber Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 239000004744 fabric Substances 0.000 description 10
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 5
- 239000010949 copper Substances 0.000 description 5
- 229910052802 copper Inorganic materials 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000013307 optical fiber Substances 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 229920002803 thermoplastic polyurethane Polymers 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17356—Indirect interconnection networks
- G06F15/17368—Indirect interconnection networks non hierarchical topologies
- G06F15/17381—Two dimensional, e.g. mesh, torus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17356—Indirect interconnection networks
- G06F15/17368—Indirect interconnection networks non hierarchical topologies
- G06F15/17387—Three dimensional, e.g. hypercubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/46—Cluster building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/72—Admission control; Resource allocation using reservation actions during connection setup
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/78—Architectures of resource allocation
- H04L47/781—Centralised allocation of resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/80—Actions related to the user profile or the type of traffic
- H04L47/803—Application aware
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/82—Miscellaneous aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/82—Miscellaneous aspects
- H04L47/821—Prioritising resource allocation or reservation requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/65—Re-configuration of fast packet switches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1008—Server selection for load balancing based on parameters of servers, e.g. available memory or workload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/563—Data redirection of data network streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/505—Clust
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
- H04Q2011/0052—Interconnection of switches
- H04Q2011/0058—Crossbar; Matrix
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0064—Arbitration, scheduling or medium access control aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0079—Operation or maintenance aspects
- H04Q2011/0081—Fault tolerance; Redundancy; Recovery; Reconfigurability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0086—Network resource allocation, dimensioning or optimisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/009—Topology aspects
- H04Q2011/0098—Mesh
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Multi Processors (AREA)
- Hardware Redundancy (AREA)
Description
いくつかの計算ワークロード、例えば機械学習トレーニングは、ワークロードを効率的に処理するために多くの処理ノードを必要とする。処理ノードは、相互接続ネットワークを介して互いに通信することができる。例えば、機械学習トレーニングの場合、処理ノードは、互いに通信することによって、最適な深層学習モデルに収束することができる。相互接続ネットワークは、処理ユニットが収束を達成する速度および効率にとって重要である。
本明細書は、光ネットワークを用いて、ワークロードクラスタを生成する計算ノードのスーパポートを再構成できる技術を説明する。
様々な図面において、同様の参照番号および名称は、同様の要素を示す。
Claims (20)
- 1つ以上のデータ処理装置によって実行される方法であって、前記方法は、
第1の計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含み、前記要求データは、前記計算ノードのn(nは、2以上である)次元目標構成を指定し、
各々がm(mは、2以上である)次元構成の計算ノードを含む1組のビルディングブロックを含むスーパポッドから、組み合わせられると、前記要求データによって指定された前記n次元目標構成に一致する前記ビルディングブロックの部分セットを選択することを含み、前記1組のビルディングブロックは、前記n次元の各次元のための1つ以上の光回路スイッチを含む光ネットワークに接続され、各ビルディングブロックは、当該ビルディングブロックの各次元に沿った複数のセグメントの計算ノードを含み、
前記n次元目標構成に一致する前記ビルディングブロックの部分セットを含む計算ノードの第1のワークロードクラスタを生成することを含み、
前記生成することは、
前記第1のワークロードクラスタの各次元について、当該次元のための前記1つ以上の光回路スイッチに含まれるそれぞれのルーティングデータを前記計算ノードのn次元目標構成に基づいて更新することによって、当該次元のための前記1つ以上の光回路スイッチを構成することを含み、前記第1のワークロードクラスタの各次元にそれぞれ対応する前記1つ以上の光回路スイッチの前記それぞれのルーティングデータは、前記第1のワークロードクラスタの前記次元に沿って、前記第1の計算ワークロードのデータをどのように前記計算ノードの間にルーティングするかを指定し、
前記第1のワークロードクラスタの前記計算ノードに、前記第1の計算ワークロードを実行させることを含む、方法。 - 前記要求データは、異なる種類の計算ノードを指定し、
前記n次元目標構成に一致する前記ビルディングブロックの部分セットを選択することは、前記要求データによって指定される各種類の計算ノードについて、前記指定された種類の1つ以上の計算ノードを含むビルディングブロックを選択することを含む、請求項1に記載の方法。 - 前記スーパポッドの各次元の前記それぞれのルーティングデータは、当該次元に対応する前記1つ以上の光回路スイッチのうちの1つについて光回路スイッチルーティングテーブルを含む、請求項1または2に記載の方法。
- 前記光ネットワークは、前記n次元の各次元について、当該次元に沿った計算ノードの間にデータをルーティングする当該光ネットワークの1つ以上の光回路スイッチを含む、請求項1から3のいずれか1項に記載の方法。
- 前記光ネットワークは、各次元の各セグメントについて、前記第1のワークロードクラスタ内の各ビルディングブロックに対応する計算ノードセグメントの間にデータをルーティングする当該光ネットワークの光回路スイッチを含む、請求項4に記載の方法。
- 各ビルディングブロックは、3次元トーラス状計算ノードまたはメッシュ状計算ノードのうちの1つを含む、請求項1から5のいずれか1項に記載の方法。
- 前記スーパポッドは、複数のワークロードクラスタを含み、
各ワークロードクラスタは、前記ビルディングブロックの異なる部分セットを含み、他のワークロードクラスタとは異なるワークロードを実行する、請求項1から6のいずれか1項に記載の方法。 - 前記第1のワークロードクラスタの特定のビルディングブロックが故障したことを示すデータを受信することと、
利用可能なビルディングブロックを用いて前記特定のビルディングブロックを置換することとをさらに含む、請求項1から7のいずれか1項に記載の方法。 - 利用可能なビルディングブロックを用いて前記特定のビルディングブロックを置換することは、
前記第1のワークロードクラスタの前記特定のビルディングブロックと1つ以上の他のビルディングブロックとの間のデータルーティングを停止するように、前記光ネットワークの1つ以上の光回路スイッチのデータルーティングを更新することと、
前記第1のワークロードクラスタの前記利用可能なビルディングブロックと前記1つ以上の他のビルディングブロックとの間にデータをルーティングするように、前記光ネットワークの前記1つ以上の光回路スイッチのデータルーティングを更新することとを含む、請求項8に記載の方法。 - 組み合わせられると、前記要求データによって指定される前記n次元目標構成に一致する前記ビルディングブロックの部分セットを選択することは、
前記要求データによって指定された前記n次元目標構成が、前記スーパポッド内の利用可能且つ健全な第2の量のビルディングブロックを超える第1の量のビルディングブロックを必要とすることを判断することと、
前記要求データによって指定された前記n次元目標構成が、前記スーパポッド内の利用可能且つ健全な前記第2の量のビルディングブロックを超える前記第1の量のビルディングブロックを必要とするという判断に応じて、
前記第1の計算ワークロードより低い優先度を有し且つ前記スーパポッドの1つ以上の第2のビルディングブロックによって実行されている1つ以上の第2の計算ワークロードを特定すること、前記1つ以上の第2のビルディングブロックは、前記スーパポッド内の利用可能且つ健全なビルディングブロックとは異なり、および、
前記1つ以上の第2の計算ワークロードの前記1つ以上の第2のビルディングブロックを、前記第1の計算ワークロードのための前記ワークロードクラスタに割り当て直すこととを含み、
前記n次元目標構成に一致する前記ビルディングブロックの部分セットを含む前記計算ノードの前記第1のワークロードクラスタを生成することは、当該ビルディングブロックの部分セットを生成するために、前記1つ以上の第2の計算ワークロードの前記1つ以上の第2のビルディングブロックと前記利用可能且つ健全なビルディングブロックを組み合わせることを有する、請求項1から9のいずれか1項に記載の方法。 - 前記n次元目標構成に一致する前記ビルディングブロックの部分セットを含む計算ノードの前記ワークロードクラスタを生成することは、前記ワークロードクラスタの各次元について、前記1つ以上の第2の計算ワークロードの前記1つ以上の第2のビルディングブロックの各ビルディングブロックが、前記1つ以上の第2の計算ワークロードのビルディングブロックではなく、前記第1のワークロードクラスタに割り当てられた前記利用可能且つ健全なビルディングブロックと通信するように、当該次元のための前記1つ以上の光回路スイッチの各々のルーティングデータを再構成することを含む、請求項10に記載の方法。
- システムであって、
データ処理装置、
コンピュータプログラムをエンコードしたコンピュータ記憶媒体とを備え、
前記プログラムは、前記データ処理装置によって実行されると、前記データ処理装置に以下の動作を実行させるデータ処理装置命令を含み、前記動作は、
第1の計算ワークロードを実行するために要求される計算ノードを指定する要求データを受信することを含み、前記要求データは、前記計算ノードのn(nは、2以上である)次元目標構成を指定し、
各々がm(mは、2以上である)次元構成の計算ノードを含む1組のビルディングブロックを含むスーパポッドから、組み合わせられると、前記要求データによって指定された前記n次元目標構成に一致する前記ビルディングブロックの部分セットを選択することを含み、前記1組のビルディングブロックは、前記n次元の各次元のための1つ以上の光回路スイッチを含む光ネットワークに接続され、各ビルディングブロックは、当該ビルディングブロックの各次元に沿った複数のセグメントの計算ノードを含み、
前記n次元目標構成に一致する前記ビルディングブロックの部分セットを含む計算ノードの第1のワークロードクラスタを生成することを含み、
前記生成することは、
前記第1のワークロードクラスタの各次元について、当該次元のための前記1つ以上の光回路スイッチに含まれるそれぞれのルーティングデータを前記計算ノードの前記n次元目標構成に基づいて更新することによって、当該次元のための前記1つ以上の光回路スイッチを構成することを含み、前記第1のワークロードクラスタの各次元にそれぞれ対応する前記1つ以上の光回路スイッチの前記それぞれのルーティングデータは、前記第1のワークロードクラスタの前記次元に沿って、前記第1の計算ワークロードのデータをどのように前記計算ノードの間にルーティングするかを指定し、
前記第1のワークロードクラスタの前記計算ノードに、前記第1の計算ワークロードを実行させることを含む、システム。 - 前記要求データは、異なる種類の計算ノードを指定し、
前記n次元目標構成に一致する前記ビルディングブロックの部分セットを選択することは、前記要求データによって指定された各種類の計算ノードについて、前記指定された種類の1つ以上の計算ノードを含むビルディングブロックを選択することを含む、請求項12に記載のシステム。 - 前記スーパポッドの各次元の前記それぞれのルーティングデータは、当該次元に対応する前記1つ以上の光回路スイッチのうちの1つについて光回路スイッチルーティングテーブルを含む、請求項12または13に記載のシステム。
- 前記光ネットワークは、前記n次元の各次元について、当該次元に沿った計算ノードの間にデータをルーティングする当該光ネットワークの1つ以上の光回路スイッチを含む、請求項12から14のいずれか1項に記載のシステム。
- 前記光ネットワークは、各次元の各セグメントについて、前記第1のワークロードクラスタ内の各ビルディングブロックに対応する計算ノードセグメントの間にデータをルーティングする当該光ネットワークの光回路スイッチを含む、請求項15に記載のシステム。
- 各ビルディングブロックは、3次元トーラス状計算ノードまたはメッシュ状計算ノードのうちの1つを含む、請求項12から16のいずれか1項に記載のシステム。
- 前記スーパポッドは、複数のワークロードクラスタを含み、
各ワークロードクラスタは、前記ビルディングブロックの異なる部分セットを含み、他のワークロードクラスタとは異なるワークロードを実行する、請求項12から17のいずれか1項に記載のシステム。 - 前記動作は、
前記第1のワークロードクラスタの特定のビルディングブロックが故障したことを示すデータを受信することと、
利用可能なビルディングブロックを用いて前記特定のビルディングブロックを置換することとを含む、請求項12から18のいずれか1項に記載のシステム。 - 請求項1から11のいずれか1項に記載の方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023035587A JP2023078228A (ja) | 2019-03-06 | 2023-03-08 | 光ネットワークを用いた再構成可能な計算ポッド |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962814757P | 2019-03-06 | 2019-03-06 | |
US62/814,757 | 2019-03-06 | ||
US16/381,951 | 2019-04-11 | ||
US16/381,951 US11042416B2 (en) | 2019-03-06 | 2019-04-11 | Reconfigurable computing pods using optical networks |
PCT/US2019/067100 WO2020180387A1 (en) | 2019-03-06 | 2019-12-18 | Reconfigurable computing pods using optical networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023035587A Division JP2023078228A (ja) | 2019-03-06 | 2023-03-08 | 光ネットワークを用いた再構成可能な計算ポッド |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022522320A JP2022522320A (ja) | 2022-04-18 |
JP7242847B2 true JP7242847B2 (ja) | 2023-03-20 |
Family
ID=72336372
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522036A Active JP7242847B2 (ja) | 2019-03-06 | 2019-12-18 | 光ネットワークを用いた再構成可能な計算ポッド |
JP2023035587A Pending JP2023078228A (ja) | 2019-03-06 | 2023-03-08 | 光ネットワークを用いた再構成可能な計算ポッド |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023035587A Pending JP2023078228A (ja) | 2019-03-06 | 2023-03-08 | 光ネットワークを用いた再構成可能な計算ポッド |
Country Status (7)
Country | Link |
---|---|
US (3) | US11042416B2 (ja) |
EP (1) | EP3853732A1 (ja) |
JP (2) | JP7242847B2 (ja) |
KR (2) | KR102583771B1 (ja) |
CN (2) | CN112889032B (ja) |
BR (1) | BR112021007538A2 (ja) |
WO (1) | WO2020180387A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9847918B2 (en) * | 2014-08-12 | 2017-12-19 | Microsoft Technology Licensing, Llc | Distributed workload reassignment following communication failure |
US11042416B2 (en) * | 2019-03-06 | 2021-06-22 | Google Llc | Reconfigurable computing pods using optical networks |
US11847012B2 (en) * | 2019-06-28 | 2023-12-19 | Intel Corporation | Method and apparatus to provide an improved fail-safe system for critical and non-critical workloads of a computer-assisted or autonomous driving vehicle |
US11516087B2 (en) * | 2020-11-30 | 2022-11-29 | Google Llc | Connecting processors using twisted torus configurations |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146864A (ja) | 2004-11-17 | 2006-06-08 | Raytheon Co | 高性能計算(hpc)システムにおけるスケジューリング |
JP2016504668A (ja) | 2012-11-21 | 2016-02-12 | コーヒレント・ロジックス・インコーポレーテッド | 分散型プロセッサを有する処理システム |
JP2016091069A (ja) | 2014-10-30 | 2016-05-23 | 富士通株式会社 | ジョブ管理プログラム、ジョブ管理方法、およびジョブ管理装置 |
JP2017527031A (ja) | 2014-08-18 | 2017-09-14 | アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated | セルオートマトンを用いたクラスタサーバの構成 |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4598400A (en) * | 1983-05-31 | 1986-07-01 | Thinking Machines Corporation | Method and apparatus for routing message packets |
US6853635B1 (en) * | 2000-07-24 | 2005-02-08 | Nortel Networks Limited | Multi-dimensional lattice network |
US6973229B1 (en) | 2001-02-28 | 2005-12-06 | Lambda Opticalsystems Corporation | Node architecture for modularized and reconfigurable optical networks, and methods and apparatus therefor |
CN1742512A (zh) | 2002-12-04 | 2006-03-01 | 康宁股份有限公司 | 用快速竞争解决设计的快速切换可升级光互连 |
US8401385B2 (en) | 2003-10-02 | 2013-03-19 | Trex Enterprises Corp. | Optically switched communication network |
US9178784B2 (en) * | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US7518120B2 (en) | 2005-01-04 | 2009-04-14 | The Regents Of The University Of Michigan | Long-distance quantum communication and scalable quantum computation |
JP2006215816A (ja) * | 2005-02-03 | 2006-08-17 | Fujitsu Ltd | 情報処理システムおよび情報処理システムの制御方法 |
US8194638B2 (en) | 2006-07-27 | 2012-06-05 | International Business Machines Corporation | Dual network types solution for computer interconnects |
CN101330413B (zh) * | 2007-06-22 | 2012-08-08 | 上海红神信息技术有限公司 | 基于环绕网络与超立方网络架构的混合多阶张量扩展方法 |
CN101354694B (zh) * | 2007-07-26 | 2010-10-13 | 上海红神信息技术有限公司 | 基于mpu架构的超高扩展超级计算系统 |
US8687975B2 (en) | 2007-10-23 | 2014-04-01 | Hewlett-Packard Development Company, L.P. | Integrated circuit with optical interconnect |
DK2083532T3 (da) * | 2008-01-23 | 2014-02-10 | Comptel Corp | Konvergerende formidlingssystem med forbedret dataoverføring |
US7856544B2 (en) * | 2008-08-18 | 2010-12-21 | International Business Machines Corporation | Stream processing in super node clusters of processors assigned with stream computation graph kernels and coupled by stream traffic optical links |
US8296419B1 (en) | 2009-03-31 | 2012-10-23 | Amazon Technologies, Inc. | Dynamically modifying a cluster of computing nodes used for distributed execution of a program |
US8270830B2 (en) | 2009-04-01 | 2012-09-18 | Fusion-Io, Inc. | Optical network for cluster computing |
US8619605B2 (en) * | 2009-05-13 | 2013-12-31 | Avaya Inc. | Method and apparatus for maintaining port state tables in a forwarding plane of a network element |
US8719415B1 (en) | 2010-06-28 | 2014-05-06 | Amazon Technologies, Inc. | Use of temporarily available computing nodes for dynamic scaling of a cluster |
US8260840B1 (en) | 2010-06-28 | 2012-09-04 | Amazon Technologies, Inc. | Dynamic scaling of a cluster of computing nodes used for distributed execution of a program |
US8873955B2 (en) | 2010-10-25 | 2014-10-28 | Polytechnic Institute Of New York University | Distributed scheduling for an optical switch |
KR101254706B1 (ko) * | 2011-09-27 | 2013-04-15 | 성균관대학교산학협력단 | 3차원 네트워크 온 칩 |
US20130156425A1 (en) * | 2011-12-17 | 2013-06-20 | Peter E. Kirkpatrick | Optical Network for Cluster Computing |
US8867915B1 (en) | 2012-01-03 | 2014-10-21 | Google Inc. | Dynamic data center network with optical circuit switch |
US8909047B2 (en) | 2012-02-03 | 2014-12-09 | Lightfleet Corporation | Scalable optical broadcast interconnect |
US9465632B2 (en) | 2012-02-04 | 2016-10-11 | Global Supercomputing Corporation | Parallel hardware hypervisor for virtualizing application-specific supercomputers |
US9229163B2 (en) | 2012-05-18 | 2016-01-05 | Oracle International Corporation | Butterfly optical network with crossing-free switches |
US9479219B1 (en) * | 2012-09-24 | 2016-10-25 | Google Inc. | Validating a connection to an optical circuit switch |
US9332323B2 (en) * | 2012-10-26 | 2016-05-03 | Guohua Liu | Method and apparatus for implementing a multi-dimensional optical circuit switching fabric |
US10394611B2 (en) | 2012-11-26 | 2019-08-27 | Amazon Technologies, Inc. | Scaling computing clusters in a distributed computing system |
KR101465420B1 (ko) * | 2013-10-08 | 2014-11-27 | 성균관대학교산학협력단 | 네트워크 온 칩 및 네트워크 온 칩의 신호를 라우팅하는 방법 |
CN103580771B (zh) * | 2013-11-11 | 2016-01-20 | 清华大学 | 基于时间同步的全光时片交换方法 |
CN104731796B (zh) * | 2013-12-19 | 2017-12-19 | 秒针信息技术有限公司 | 数据存储计算方法和系统 |
US11290524B2 (en) * | 2014-08-13 | 2022-03-29 | Microsoft Technology Licensing, Llc | Scalable fault resilient communications within distributed clusters |
US10200292B2 (en) * | 2014-08-25 | 2019-02-05 | Intel Corporation | Technologies for aligning network flows to processing resources |
US9521089B2 (en) | 2014-08-30 | 2016-12-13 | International Business Machines Corporation | Multi-layer QoS management in a distributed computing environment |
US20160241474A1 (en) * | 2015-02-12 | 2016-08-18 | Ren Wang | Technologies for modular forwarding table scalability |
EP3275143B1 (en) * | 2015-03-23 | 2019-12-11 | Aeponyx Inc. | Photonic switches, photonic switching fabrics and methods for data centers |
US10034407B2 (en) * | 2016-07-22 | 2018-07-24 | Intel Corporation | Storage sled for a data center |
US10389800B2 (en) * | 2016-10-11 | 2019-08-20 | International Business Machines Corporation | Minimizing execution time of a compute workload based on adaptive complexity estimation |
US10834484B2 (en) * | 2016-10-31 | 2020-11-10 | Ciena Corporation | Flat, highly connected optical network for data center switch connectivity |
US10243687B2 (en) * | 2016-11-17 | 2019-03-26 | Google Llc | Optical network unit wavelength tuning |
CN106851442B (zh) | 2017-01-19 | 2019-05-21 | 西安电子科技大学 | 一种超级计算机中的光互连网络系统及通信方法 |
CN107094270A (zh) * | 2017-05-11 | 2017-08-25 | 中国科学院计算技术研究所 | 可重构的互连系统及其拓扑构建方法 |
JP6885193B2 (ja) * | 2017-05-12 | 2021-06-09 | 富士通株式会社 | 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム |
CN107241660B (zh) * | 2017-06-26 | 2021-07-06 | 国网信息通信产业集团有限公司 | 面向智能电网业务的全光灵活粒度的交换网络架构及方法 |
US10552227B2 (en) * | 2017-10-31 | 2020-02-04 | Calient Technologies, Inc. | Reconfigurable computing cluster with assets closely coupled at the physical layer by means of an optical circuit switch |
US11042416B2 (en) * | 2019-03-06 | 2021-06-22 | Google Llc | Reconfigurable computing pods using optical networks |
US11122347B2 (en) * | 2019-07-01 | 2021-09-14 | Google Llc | Reconfigurable computing pods using optical networks with one-to-many optical switches |
-
2019
- 2019-04-11 US US16/381,951 patent/US11042416B2/en active Active
- 2019-12-18 CN CN201980069191.8A patent/CN112889032B/zh active Active
- 2019-12-18 EP EP19839305.0A patent/EP3853732A1/en active Pending
- 2019-12-18 JP JP2021522036A patent/JP7242847B2/ja active Active
- 2019-12-18 CN CN202410134763.9A patent/CN117873727A/zh active Pending
- 2019-12-18 KR KR1020217011905A patent/KR102583771B1/ko active IP Right Grant
- 2019-12-18 WO PCT/US2019/067100 patent/WO2020180387A1/en unknown
- 2019-12-18 BR BR112021007538-0A patent/BR112021007538A2/pt unknown
- 2019-12-18 KR KR1020237032481A patent/KR102625118B1/ko active IP Right Grant
-
2021
- 2021-05-27 US US17/332,769 patent/US11537443B2/en active Active
-
2022
- 2022-12-05 US US18/075,332 patent/US20230161638A1/en active Pending
-
2023
- 2023-03-08 JP JP2023035587A patent/JP2023078228A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146864A (ja) | 2004-11-17 | 2006-06-08 | Raytheon Co | 高性能計算(hpc)システムにおけるスケジューリング |
JP2016504668A (ja) | 2012-11-21 | 2016-02-12 | コーヒレント・ロジックス・インコーポレーテッド | 分散型プロセッサを有する処理システム |
JP2017527031A (ja) | 2014-08-18 | 2017-09-14 | アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドAdvanced Micro Devices Incorporated | セルオートマトンを用いたクラスタサーバの構成 |
JP2016091069A (ja) | 2014-10-30 | 2016-05-23 | 富士通株式会社 | ジョブ管理プログラム、ジョブ管理方法、およびジョブ管理装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20210063382A (ko) | 2021-06-01 |
US20200285524A1 (en) | 2020-09-10 |
US20230161638A1 (en) | 2023-05-25 |
CN112889032B (zh) | 2024-02-06 |
KR20230141921A (ko) | 2023-10-10 |
KR102625118B1 (ko) | 2024-01-12 |
CN112889032A (zh) | 2021-06-01 |
WO2020180387A1 (en) | 2020-09-10 |
JP2022522320A (ja) | 2022-04-18 |
US11042416B2 (en) | 2021-06-22 |
US11537443B2 (en) | 2022-12-27 |
EP3853732A1 (en) | 2021-07-28 |
KR102583771B1 (ko) | 2023-09-27 |
US20210286656A1 (en) | 2021-09-16 |
BR112021007538A2 (pt) | 2021-07-27 |
CN117873727A (zh) | 2024-04-12 |
JP2023078228A (ja) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7242847B2 (ja) | 光ネットワークを用いた再構成可能な計算ポッド | |
US11200486B2 (en) | Convolutional neural networks on hardware accelerators | |
US11451889B2 (en) | Reconfigurable computing pods using optical networks with one-to-many optical switches | |
US10452971B2 (en) | Deep neural network partitioning on servers | |
KR101159386B1 (ko) | 고성능 연산(hpc) 시스템에서의 온디맨드 인스턴스화 | |
EP3283974B1 (en) | Systems and methods for executing software threads using soft processors | |
US20220121928A1 (en) | Enhanced reconfigurable interconnect network | |
JP2010218364A (ja) | 情報処理システム、通信制御装置および方法 | |
Rashidi et al. | Themis: A network bandwidth-aware collective scheduling policy for distributed training of dl models | |
JPH06325005A (ja) | 再構成可能なトーラス・ネットワーク方式 | |
US20150222523A1 (en) | API Supporting Server and Key Based Networking | |
US20190146802A1 (en) | Information processing apparatus, arithmetic processing apparatus, and control method for information processing apparatus | |
EP3314542B1 (en) | Convolutional neural networks on hardware accelerators |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7242847 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |