JP4577851B2 - 動的再分割を介するスーパーコンピュータでのフォールト・トレランス - Google Patents
動的再分割を介するスーパーコンピュータでのフォールト・トレランス Download PDFInfo
- Publication number
- JP4577851B2 JP4577851B2 JP2007144007A JP2007144007A JP4577851B2 JP 4577851 B2 JP4577851 B2 JP 4577851B2 JP 2007144007 A JP2007144007 A JP 2007144007A JP 2007144007 A JP2007144007 A JP 2007144007A JP 4577851 B2 JP4577851 B2 JP 4577851B2
- Authority
- JP
- Japan
- Prior art keywords
- midplane
- port
- computer system
- signal
- torus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004891 communication Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 claims 9
- 230000011664 signaling Effects 0.000 claims 1
- 240000007182 Ochroma pyramidale Species 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20709—Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
- H05K7/20836—Thermal management, e.g. server temperature control
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04D—NON-POSITIVE-DISPLACEMENT PUMPS
- F04D25/00—Pumping installations or systems
- F04D25/16—Combinations of two or more pumps ; Producing two or more separate gas flows
- F04D25/166—Combinations of two or more pumps ; Producing two or more separate gas flows using fans
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04D—NON-POSITIVE-DISPLACEMENT PUMPS
- F04D27/00—Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
- F04D27/004—Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2051—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17356—Indirect interconnection networks
- G06F15/17368—Indirect interconnection networks non hierarchical topologies
- G06F15/17381—Two dimensional, e.g. mesh, torus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
- G06F9/526—Mutual exclusion algorithms
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/003—Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
- G09G5/006—Details of the interface to the display terminal
- G09G5/008—Clock recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L7/00—Arrangements for synchronising receiver with transmitter
- H04L7/02—Speed or phase control by the received code signals, the signals containing no special synchronisation information
- H04L7/033—Speed or phase control by the received code signals, the signals containing no special synchronisation information using the transitions of the received signal to control the phase of the synchronising-signal-generating means, e.g. using a phase-locked loop
- H04L7/0337—Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals
- H04L7/0338—Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals the correction of the phase error being performed by a feed forward loop
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/70—Control systems characterised by their outputs; Constructional details thereof
- F24F11/72—Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure
- F24F11/74—Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity
- F24F11/77—Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity by controlling the speed of ventilators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B30/00—Energy efficient heating, ventilation or air conditioning [HVAC]
- Y02B30/70—Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mechanical Engineering (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Discrete Mathematics (AREA)
- Thermal Sciences (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Description
本明細書で説明する大量並列スーパーコンピュータでは、3つの主要な別々の相互接続ネットワークすなわち、3次元トーラス、グローバル・コンバイニング・ツリー、およびグローバル割込みの組が、この動的再分割から利益を得ることができる。大量並列スーパーコンピュータは、ミッドプレーンの間のケーブルを介して信号をステアリングするリンク・チップと共に、ミッドプレーンごとに512個のマルチプロセッサ(8×8×8個のノード)のグループに編成される。リンク・チップ(リンク回路カードごとに6チップ)は、システムのソフトウェア再構成を可能にする主要な形である。
大量並列スーパーコンピュータのトーラス、グローバル・コンバイニング・ツリー、およびグローバル割込み信号は、異なるミッドプレーンの間で追跡する時に、リンク・チップを通過する。このチップは、2つの機能をサービスする。第1に、リンク・チップは、ミッドプレーンの間でケーブル上の信号を再駆動し、異なるミッドプレーン上の計算ASICの間の長く損失があるトレースケーブルトレース接続の中央での高速信号の形状および振幅を改善する。第2に、リンク・チップは、その異なるポートの間で信号をリダイレクトすることができる。このリダイレクション機能が、大量並列スーパーコンピュータを複数の論理的に別々のシステムに動的に再分割できるようにする機能である。
正規リダイレクションでは、大きいコンピュータ・システムの1論理方向から(図4に示されたx軸、y軸、またはz軸のいずれかに沿って)1つのミッドプレーンが除去される。正規リダイレクションを、図3のモード1および2に示す。これには、リンク・チップのポートC、F、A、およびBが用いられる。ポートCおよびFは、図5の上部に示されているように、特定のトーラス論理方向x、y、またはzで、現在のミッドプレーンと上位または下位のミッドプレーンとの間でケーブルによって+方向および−方向に接続される。これらのケーブル接続を、図4では、論理Xケーブル40、論理Yケーブル42、および論理Zケーブル44という符号を付けられた矢印によって示す。ポートAおよびBは、ミッドプレーン・トーラス・ループに接続され、このループは、図3および図5で、ミッドプレーンXトーラス51、ミッドプレーンYトーラス52、ミッドプレーンZトーラス53として示されているように、ミッドプレーン内で直列の8つの計算プロセッサを介して循環する。
スプリット・リダイレクションでは、計算機の大きい64×32×32ノード・セクションを、2つの同等の32×32×32である半分または4つの16×32×32である1/4に分割できるようになる。リンク・チップで実施される時に、スプリット・リダイレクションによって、システム分割の多数の変形を可能にすることができる。しかし、長いケーブルのコストおよび信号保全性の懸念に起因して、スプリット・リダイレクションが、論理X方向でのみ物理的に配線され、大きいシステムを2つの等しい半分または4つの1/4に分割できるようにするのに必要な数のラック行(図4)でのみ物理的に配線されることが好ましい。スプリット・リダイレクションを、図3のモード3および4に示す。3から10までの8つのモードが、スプリット・リダイレクションを達成するのに必要であるが、図3には、説明のためにそのうちの2つ、モード3および4だけが示され、残りのモードは、類似する形で動作する。スプリット・リダイレクションでは、リンク・チップによって、隣接するミッドプレーンへの+ケーブル方向または−ケーブル方向と見なされるケーブル・ポートが再定義される。リンク・チップは、正規ポートCからの+方向ポートを、スプリット・ポートDまたはEあるいはその両方に再定義し、あるいは、正規ポートFからの−方向ポートをスプリット・ポートDまたはEあるいはその両方に再定義する。正規ケーブルは、図4で矢印を有する細い線(論理xケーブル40、論理yケーブル42、および論理zケーブル44)によって示され、スプリット・ケーブル46は、矢印のない太い線(論理xケーブルの中央付近)として示されている。論理xケーブルは、x方向に沿って延び、同様に、論理yケーブルはy方向、論理zケーブルはz方向である。
図4に、大量並列スーパーコンピュータの配線および分割を示す。
グローバル・コンバイニング・ツリー信号およびグローバル割込み信号は、図5、6、および7の上部を比較することによってわかるように、トーラス信号と同一のリンク・チップおよびケーブルを介して経路指定される。したがって、正規再分割およびスプリット再分割によって、ツリーが、トーラスと正確に同一の形で論理副区画に分割される。論理副区画内では、各ミッドプレーンの入出力プロセッサが、区画内のツリーを接続するようにソフトウェアによって再構成される。
Claims (7)
- 並列コンピュータ・システムをハードウェア障害に対してトレラントにするために並列コンピュータ・システムでフォールト・トレランスを提供する方法において、前記並列コンピュータ・システムは複数のミッドプレーンで構成されており、各ミッドプレーンは複数の計算ノードを有し、各計算ノードは1つまたは複数のプロセッサを有し、前記方法は、
前記コンピュータ・システムに冗長待機プロセッサの余分なグループを設けることと、
冗長待機プロセッサの前記余分なグループを、ハードウェア障害を経験する前記コンピュータ・システムのプロセッサのグループの代わりに動作するように切り替えることと、
前記コンピュータ・システムが、3次元トーラスとして接続されたa×b×c個の計算ノードのアレイを含み、各計算ノードが、6つの隣接する計算ノードへの+および−のx、y、z方向で6つのトーラス・リンクによって接続することと、
前記コンピュータ・システムが、データを任意のノードからすべての他のノードまたはノードのサブセットに送れるようにするグローバル・コンバイニング・ツリーを介する通信リンク、グローバル割込み信号ネットワークを介する通信リンクも経路指定することと
を含む方法であって、
3次元トーラスとして接続された異なるミッドプレーンの間で追跡する時に、前記コンピュータ・システムのトーラス信号、グローバル・コンバイニング・ツリー信号、およびグローバル割込み信号が、+および−のx、y、z方向に6つのリンク・チップを介して通過し、ここで前記グローバル・コンバイニング・ツリー信号および前記グローバル割込み信号は、前記トーラス信号と同一のリンク・チップを介して経路指定され、
前記6つのリンク・チップが、前記コンピュータ・システムを複数の論理的に別々のシステムに分割されることを可能にするために、前記6つの各リンク・チップの2つの正規ポート(INとOUT)、2つのスプリット・ポート(INとOUT)、2つのミッドプレーン・ポート(INとOUT)間で、正規ポート(IN)をミッドプレーン・ポート(OUT)に且つミッドプレーン・ポート(IN)を正規ポート(OUT)に経路指定したり、正規ポート(IN)を正規ポート(OUT)に且つミッドプレーン・ポート(IN)をミッドプレーン・ポート(OUT)に経路指定したり、ミッドプレーン・ポート(IN)を正規ポート(OUT)に且つスプリット・ポート(IN)をミッドプレーン・ポート(OUT)に経路指定したり、又はスプリット・ポート(IN)を正規ポート(OUT)に且つミッドプレーン・ポート(IN)をミッドプレーン・ポート(OUT)に経路指定したりすることで信号をリダイレクトする、前記方法。 - 前記切り替えることが、ソフトウェア制御下であり、これによって、前記コンピュータ・システム全体が、ハードウェア障害に耐えられるようになり、前記待機プロセッサのスワップ・インの後に、前記コンピュータ・システムが、ソフトウェアに、完全に機能し動作するコンピューティング・システムとして見える、請求項1に記載の方法。
- 前記コンピュータ・システムが、複数の実質的に同一の計算ノードを含む大量並列コンピュータ・システムを含み、前記計算ノードのそれぞれが、1つまたは複数の前記プロセッサ、メモリ、および前記計算ノードを他の計算ノードに接続する1つまたは複数のネットワーク・インターフェースを含む、請求項1に記載の方法。
- 各計算ノードが、マルチプロセッサを有するASICを含み、前記マルチプロセッサの1プロセッサが、大量並列スーパーコンピュータの一部として処理を実行し、前記マルチプロセッサの第2のプロセッサが、前記計算ノードのメッセージ受渡動作を実行する、請求項3に記載の方法。
- 各リンク・チップが、2種類の信号リダイレクション、すなわち、前記コンピュータ・システムのx軸、y軸、またはz軸のいずれかに沿った1つの論理方向から1つのプロセッサのグループであるミッドプレーンを除去する正規リダイレクションと、前記コンピュータ・システムを2つの半分または4つの1/4に分割できるようにするスプリット・リダイレクションとを実行する、請求項1に記載の方法。
- 前記グローバル・コンバイニング・ツリー信号および前記グローバル割込み信号が、前記3次元トーラスを介して経路指定される信号として同一の前記リンク・チップおよびリンクを介して経路指定され、それによって前記正規リダイレクションおよび前記スプリット・リダイレクションが、前記グローバル・コンバイニング・ツリーを前記3次元トーラスと正確に同一の様式の論理副区画に再分割する、請求項5に記載の方法。
- 再分割に応じて、前記グローバル・コンバイニング・ツリー信号および前記グローバル割込み信号は、前記コンバイニング・ツリーの頭部および前記グローバル割込み信号ネットワークの頭部の両方が各論理副区画にわたって定義されるようにさらに構成される、請求項6に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US27112401P | 2001-02-24 | 2001-02-24 | |
PCT/US2002/005566 WO2002069469A1 (en) | 2001-02-24 | 2002-02-25 | Fault tolerance in a supercomputer through dynamic repartitioning |
JP2002568482A JP4524073B2 (ja) | 2001-02-24 | 2002-02-25 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002568482A Division JP4524073B2 (ja) | 2001-02-24 | 2002-02-25 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007220147A JP2007220147A (ja) | 2007-08-30 |
JP4577851B2 true JP4577851B2 (ja) | 2010-11-10 |
Family
ID=68499838
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002568482A Expired - Fee Related JP4524073B2 (ja) | 2001-02-24 | 2002-02-25 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
JP2007144007A Expired - Fee Related JP4577851B2 (ja) | 2001-02-24 | 2007-05-30 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002568482A Expired - Fee Related JP4524073B2 (ja) | 2001-02-24 | 2002-02-25 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Country Status (6)
Country | Link |
---|---|
US (1) | US7185226B2 (ja) |
EP (1) | EP1374360A4 (ja) |
JP (2) | JP4524073B2 (ja) |
KR (1) | KR100570145B1 (ja) |
CN (1) | CN1319237C (ja) |
WO (1) | WO2002069469A1 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002069469A1 (en) * | 2001-02-24 | 2002-09-06 | International Business Machines Corporation | Fault tolerance in a supercomputer through dynamic repartitioning |
CN1322452C (zh) * | 2001-02-24 | 2007-06-20 | 国际商业机器公司 | 环形和树形网络中的算术函数 |
US20060001669A1 (en) * | 2002-12-02 | 2006-01-05 | Sehat Sutardja | Self-reparable semiconductor and method thereof |
US7185225B2 (en) * | 2002-12-02 | 2007-02-27 | Marvell World Trade Ltd. | Self-reparable semiconductor and method thereof |
US7340644B2 (en) * | 2002-12-02 | 2008-03-04 | Marvell World Trade Ltd. | Self-reparable semiconductor and method thereof |
US7178059B2 (en) * | 2003-05-07 | 2007-02-13 | Egenera, Inc. | Disaster recovery for processing resources using configurable deployment platform |
JP3737810B2 (ja) * | 2003-05-09 | 2006-01-25 | 株式会社東芝 | 計算機システム及び故障計算機代替制御プログラム |
US7904663B2 (en) * | 2003-12-18 | 2011-03-08 | International Business Machines Corporation | Secondary path for coherency controller to interconnection network(s) |
US9178784B2 (en) | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US8335909B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | Coupling processors to each other for high performance computing (HPC) |
US8336040B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US7376890B2 (en) * | 2004-05-27 | 2008-05-20 | International Business Machines Corporation | Method and system for checking rotate, shift and sign extension functions using a modulo function |
US7475274B2 (en) * | 2004-11-17 | 2009-01-06 | Raytheon Company | Fault tolerance and recovery in a high-performance computing (HPC) system |
KR100748715B1 (ko) * | 2005-12-27 | 2007-08-13 | 주식회사 텔레칩스 | 하드웨어 작업관리 장치 |
US20070174655A1 (en) * | 2006-01-18 | 2007-07-26 | Brown Kyle G | System and method of implementing automatic resource outage handling |
US8078907B2 (en) * | 2006-01-19 | 2011-12-13 | Silicon Graphics, Inc. | Failsoft system for multiple CPU system |
US8516444B2 (en) | 2006-02-23 | 2013-08-20 | International Business Machines Corporation | Debugging a high performance computing program |
US7512836B2 (en) | 2006-12-11 | 2009-03-31 | International Business Machines Corporation | Fast backup of compute nodes in failing midplane by copying to nodes in backup midplane via link chips operating in pass through and normal modes in massively parallel computing system |
JP2008165381A (ja) * | 2006-12-27 | 2008-07-17 | Ricoh Co Ltd | 画像処理装置及び画像処理方法 |
US8412981B2 (en) * | 2006-12-29 | 2013-04-02 | Intel Corporation | Core sparing on multi-core platforms |
US20080235454A1 (en) * | 2007-03-22 | 2008-09-25 | Ibm Corporation | Method and Apparatus for Repairing a Processor Core During Run Time in a Multi-Processor Data Processing System |
US9330230B2 (en) * | 2007-04-19 | 2016-05-03 | International Business Machines Corporation | Validating a cabling topology in a distributed computing system |
US7984150B2 (en) * | 2007-07-31 | 2011-07-19 | Hewlett-Packard Development Company, L.P. | Cell compatibilty in multiprocessor systems |
JP2009104300A (ja) * | 2007-10-22 | 2009-05-14 | Denso Corp | データ処理装置及びプログラム |
US7870365B1 (en) | 2008-07-07 | 2011-01-11 | Ovics | Matrix of processors with data stream instruction execution pipeline coupled to data switch linking to neighbor units by non-contentious command channel / data channel |
US7958341B1 (en) | 2008-07-07 | 2011-06-07 | Ovics | Processing stream instruction in IC of mesh connected matrix of processors containing pipeline coupled switch transferring messages over consecutive cycles from one link to another link or memory |
US8145880B1 (en) | 2008-07-07 | 2012-03-27 | Ovics | Matrix processor data switch routing systems and methods |
US8131975B1 (en) | 2008-07-07 | 2012-03-06 | Ovics | Matrix processor initialization systems and methods |
US8327114B1 (en) | 2008-07-07 | 2012-12-04 | Ovics | Matrix processor proxy systems and methods |
JP2010086363A (ja) * | 2008-10-01 | 2010-04-15 | Fujitsu Ltd | 情報処理装置及び装置構成組み換え制御方法 |
US20110202995A1 (en) * | 2010-02-16 | 2011-08-18 | Honeywell International Inc. | Single hardware platform multiple software redundancy |
US8718079B1 (en) | 2010-06-07 | 2014-05-06 | Marvell International Ltd. | Physical layer devices for network switches |
US8713362B2 (en) | 2010-12-01 | 2014-04-29 | International Business Machines Corporation | Obviation of recovery of data store consistency for application I/O errors |
US8694821B2 (en) | 2010-12-03 | 2014-04-08 | International Business Machines Corporation | Generation of standby images of applications |
CN111811116A (zh) * | 2020-07-07 | 2020-10-23 | 北京丰联奥睿科技有限公司 | 一种多联空调系统的配置方法 |
WO2023068960A1 (ru) * | 2021-10-20 | 2023-04-27 | Федеральное Государственное Унитарное Предприятие "Российский Федеральный Ядерный Центр - Всероссийский Научно - Исследовательский Институт Технической Физики Имени Академика Е.И. Забабахина" | Компактный суперкомпьютер |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61201365A (ja) * | 1985-03-04 | 1986-09-06 | Nippon Telegr & Teleph Corp <Ntt> | 並列処理システムの自動再構成方式 |
JPS62274454A (ja) * | 1986-05-23 | 1987-11-28 | Hitachi Ltd | 並列処理計算機 |
JPH03132861A (ja) * | 1989-10-19 | 1991-06-06 | Agency Of Ind Science & Technol | マルチプロセッサ・システムの再構成制御方式 |
JPH0635872A (ja) * | 1992-05-22 | 1994-02-10 | Internatl Business Mach Corp <Ibm> | コンピュータ・システム |
JPH06290158A (ja) * | 1993-03-31 | 1994-10-18 | Fujitsu Ltd | 再構成可能なトーラス・ネットワーク方式 |
JP2004532447A (ja) * | 2001-02-24 | 2004-10-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4907232A (en) * | 1988-04-28 | 1990-03-06 | The Charles Stark Draper Laboratory, Inc. | Fault-tolerant parallel processing system |
US5963746A (en) * | 1990-11-13 | 1999-10-05 | International Business Machines Corporation | Fully distributed processing memory element |
US5594918A (en) * | 1991-05-13 | 1997-01-14 | International Business Machines Corporation | Parallel computer system providing multi-ported intelligent memory |
US5715391A (en) * | 1991-11-15 | 1998-02-03 | International Business Machines Corporation | Modular and infinitely extendable three dimensional torus packaging scheme for parallel processing |
US5271014A (en) | 1992-05-04 | 1993-12-14 | International Business Machines Corporation | Method and apparatus for a fault-tolerant mesh with spare nodes |
US5592610A (en) * | 1994-12-21 | 1997-01-07 | Intel Corporation | Method and apparatus for enhancing the fault-tolerance of a network |
US5884018A (en) * | 1997-01-28 | 1999-03-16 | Tandem Computers Incorporated | Method and apparatus for distributed agreement on processor membership in a multi-processor system |
US6189112B1 (en) * | 1998-04-30 | 2001-02-13 | International Business Machines Corporation | Transparent processor sparing |
US6115829A (en) * | 1998-04-30 | 2000-09-05 | International Business Machines Corporation | Computer system with transparent processor sparing |
JP4154124B2 (ja) * | 1998-11-10 | 2008-09-24 | 富士通株式会社 | 並列プロセッサシステム |
FR2795840B1 (fr) * | 1999-07-02 | 2001-08-31 | Commissariat Energie Atomique | Reseau de processeurs paralleles avec tolerance aux fautes de ces processeurs, et procede de reconfiguration applicable a un tel reseau |
US6789213B2 (en) * | 2000-01-10 | 2004-09-07 | Sun Microsystems, Inc. | Controlled take over of services by remaining nodes of clustered computing system |
JP3674515B2 (ja) * | 2000-02-25 | 2005-07-20 | 日本電気株式会社 | アレイ型プロセッサ |
ATE437476T1 (de) * | 2000-10-06 | 2009-08-15 | Pact Xpp Technologies Ag | Zellenanordnung mit segmentierter zwischenzellstruktur |
ATE479147T1 (de) | 2001-02-24 | 2010-09-15 | Ibm | Neuartiger massivparalleler supercomputer |
US7080156B2 (en) * | 2002-03-21 | 2006-07-18 | Sun Microsystems, Inc. | Message routing in a torus interconnect |
-
2002
- 2002-02-25 WO PCT/US2002/005566 patent/WO2002069469A1/en active IP Right Grant
- 2002-02-25 EP EP02706408A patent/EP1374360A4/en not_active Withdrawn
- 2002-02-25 JP JP2002568482A patent/JP4524073B2/ja not_active Expired - Fee Related
- 2002-02-25 KR KR1020037010921A patent/KR100570145B1/ko not_active IP Right Cessation
- 2002-02-25 CN CNB028054253A patent/CN1319237C/zh not_active Expired - Fee Related
- 2002-02-25 US US10/469,002 patent/US7185226B2/en not_active Expired - Fee Related
-
2007
- 2007-05-30 JP JP2007144007A patent/JP4577851B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61201365A (ja) * | 1985-03-04 | 1986-09-06 | Nippon Telegr & Teleph Corp <Ntt> | 並列処理システムの自動再構成方式 |
JPS62274454A (ja) * | 1986-05-23 | 1987-11-28 | Hitachi Ltd | 並列処理計算機 |
JPH03132861A (ja) * | 1989-10-19 | 1991-06-06 | Agency Of Ind Science & Technol | マルチプロセッサ・システムの再構成制御方式 |
JPH0635872A (ja) * | 1992-05-22 | 1994-02-10 | Internatl Business Mach Corp <Ibm> | コンピュータ・システム |
JPH06290158A (ja) * | 1993-03-31 | 1994-10-18 | Fujitsu Ltd | 再構成可能なトーラス・ネットワーク方式 |
JP2004532447A (ja) * | 2001-02-24 | 2004-10-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Also Published As
Publication number | Publication date |
---|---|
JP2004532447A (ja) | 2004-10-21 |
JP4524073B2 (ja) | 2010-08-11 |
JP2007220147A (ja) | 2007-08-30 |
US20040153754A1 (en) | 2004-08-05 |
CN1493101A (zh) | 2004-04-28 |
WO2002069469A1 (en) | 2002-09-06 |
KR20030077034A (ko) | 2003-09-29 |
EP1374360A1 (en) | 2004-01-02 |
KR100570145B1 (ko) | 2006-04-12 |
EP1374360A4 (en) | 2010-02-17 |
CN1319237C (zh) | 2007-05-30 |
US7185226B2 (en) | 2007-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4577851B2 (ja) | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス | |
US10681136B2 (en) | Memory network methods, apparatus, and systems | |
US8933715B2 (en) | Configurable vertical integration | |
Despain et al. | X-Tree: A tree structured multi-processor computer architecture | |
KR101091360B1 (ko) | 토러스 네트워크를 가지는 병렬 컴퓨터 시스템 상의 오류 복구 | |
EP1665065B1 (en) | Integrated data processing circuit with a plurality of programmable processors | |
KR20100105414A (ko) | 정보 처리 시스템, 통신 제어 장치 및 방법 | |
CN112188325B (zh) | 使用具有一对多光交换机的光网络的可重新配置的计算平台 | |
US8117502B2 (en) | Bisectional fault detection system | |
US7930584B2 (en) | Cell boundary fault detection system | |
US7826379B2 (en) | All-to-all sequenced fault detection system | |
Min et al. | Design and analysis of a multiprocessor system with extended fault tolerance | |
Davis IV et al. | The performance analysis of partitioned circuit switched multistage interconnection networks | |
Takanami et al. | Degradable restructuring of mesh-connected processor arrays with spares on orthogonal sides | |
Rim et al. | An architecture for high availability multi-user systems | |
Jindal | Simulation Analysis of Permutation Passibility behavior of Multi-stage Interconnection Networks A Thesis Report Submitted in the partial fulfillment of the requirements for the award of the degree of ME in Software Engineering | |
Kaneko et al. | A study of the number of tracks required for the reconfiguration of mesh‐connected processor‐element networks | |
Theobald | The W‐Network: A low‐cost fault‐tolerant multistage interconnection network for fine‐grain multiprocessing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090402 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090402 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20090402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100727 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100818 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20100818 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100820 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |