JP4524073B2 - 動的再分割を介するスーパーコンピュータでのフォールト・トレランス - Google Patents
動的再分割を介するスーパーコンピュータでのフォールト・トレランス Download PDFInfo
- Publication number
- JP4524073B2 JP4524073B2 JP2002568482A JP2002568482A JP4524073B2 JP 4524073 B2 JP4524073 B2 JP 4524073B2 JP 2002568482 A JP2002568482 A JP 2002568482A JP 2002568482 A JP2002568482 A JP 2002568482A JP 4524073 B2 JP4524073 B2 JP 4524073B2
- Authority
- JP
- Japan
- Prior art keywords
- midplane
- torus
- cable
- tree
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005192 partition Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 claims 3
- 240000007182 Ochroma pyramidale Species 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20709—Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
- H05K7/20836—Thermal management, e.g. server temperature control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04D—NON-POSITIVE-DISPLACEMENT PUMPS
- F04D25/00—Pumping installations or systems
- F04D25/16—Combinations of two or more pumps ; Producing two or more separate gas flows
- F04D25/166—Combinations of two or more pumps ; Producing two or more separate gas flows using fans
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04D—NON-POSITIVE-DISPLACEMENT PUMPS
- F04D27/00—Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
- F04D27/004—Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2051—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17356—Indirect interconnection networks
- G06F15/17368—Indirect interconnection networks non hierarchical topologies
- G06F15/17381—Two dimensional, e.g. mesh, torus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
- G06F9/526—Mutual exclusion algorithms
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/003—Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
- G09G5/006—Details of the interface to the display terminal
- G09G5/008—Clock recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L7/00—Arrangements for synchronising receiver with transmitter
- H04L7/02—Speed or phase control by the received code signals, the signals containing no special synchronisation information
- H04L7/033—Speed or phase control by the received code signals, the signals containing no special synchronisation information using the transitions of the received signal to control the phase of the synchronising-signal-generating means, e.g. using a phase-locked loop
- H04L7/0337—Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals
- H04L7/0338—Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals the correction of the phase error being performed by a feed forward loop
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/70—Control systems characterised by their outputs; Constructional details thereof
- F24F11/72—Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure
- F24F11/74—Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity
- F24F11/77—Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity by controlling the speed of ventilators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B30/00—Energy efficient heating, ventilation or air conditioning [HVAC]
- Y02B30/70—Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mechanical Engineering (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- Discrete Mathematics (AREA)
- Databases & Information Systems (AREA)
- Thermal Sciences (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Description
本明細書で説明する大量並列スーパーコンピュータでは、3つの主要な別々の相互接続ネットワークすなわち、3次元トーラス、グローバル・コンバイニング・ツリー、およびグローバル割込みの組が、この動的再分割から利益を得ることができる。大量並列スーパーコンピュータは、ミッドプレーンの間のケーブルを介して信号をステアリングするリンク・チップと共に、ミッドプレーンごとに512個のマルチプロセッサ(8×8×8個のノード)のグループに編成される。リンク・チップ(リンク回路カードごとに6チップ)は、システムのソフトウェア再構成を可能にする主要な形である。
大量並列スーパーコンピュータのトーラス、グローバル・コンバイニング・ツリー、およびグローバル割込み信号は、異なるミッドプレーンの間で追跡する時に、リンク・チップを通過する。このチップは、2つの機能をサービスする。第1に、リンク・チップは、ミッドプレーンの間でケーブル上の信号を再駆動し、異なるミッドプレーン上の計算ASICの間の長く損失があるトレースケーブルトレース接続の中央での高速信号の形状および振幅を改善する。第2に、リンク・チップは、その異なるポートの間で信号をリダイレクトすることができる。このリダイレクション機能が、大量並列スーパーコンピュータを複数の論理的に別々のシステムに動的に再分割できるようにする機能である。
正規リダイレクションでは、大きいコンピュータ・システムの1論理方向から(図4に示されたx軸、y軸、またはz軸のいずれかに沿って)1つのミッドプレーンが除去される。正規リダイレクションを、図3のモード1および2に示す。これには、リンク・チップのポートC、F、A、およびBが用いられる。ポートCおよびFは、図5の上部に示されているように、特定のトーラス論理方向x、y、またはzで、現在のミッドプレーンと上位または下位のミッドプレーンとの間でケーブルによって+方向および−方向に接続される。これらのケーブル接続を、図4では、論理Xケーブル40、論理Yケーブル42、および論理Zケーブル44という符号を付けられた矢印によって示す。ポートAおよびBは、ミッドプレーン・トーラス・ループに接続され、このループは、図3および図5で、ミッドプレーンXトーラス51、ミッドプレーンYトーラス52、ミッドプレーンZトーラス53として示されているように、ミッドプレーン内で直列の8つの計算プロセッサを介して循環する。
スプリット・リダイレクションでは、計算機の大きい64×32×32ノード・セクションを、2つの同等の32×32×32である半分または4つの16×32×32である1/4に分割できるようになる。リンク・チップで実施される時に、スプリット・リダイレクションによって、システム分割の多数の変形を可能にすることができる。しかし、長いケーブルのコストおよび信号保全性の懸念に起因して、スプリット・リダイレクションが、論理X方向でのみ物理的に配線され、大きいシステムを2つの等しい半分または4つの1/4に分割できるようにするのに必要な数のラック行(図4)でのみ物理的に配線されることが好ましい。スプリット・リダイレクションを、図3のモード3および4に示す。3から10までの8つのモードが、スプリット・リダイレクションを達成するのに必要であるが、図3には、説明のためにそのうちの2つ、モード3および4だけが示され、残りのモードは、類似する形で動作する。スプリット・リダイレクションでは、リンク・チップによって、隣接するミッドプレーンへの+ケーブル方向または−ケーブル方向と見なされるケーブル・ポートが再定義される。リンク・チップは、正規ポートCからの+方向ポートを、スプリット・ポートDまたはEあるいはその両方に再定義し、あるいは、正規ポートFからの−方向ポートをスプリット・ポートDまたはEあるいはその両方に再定義する。正規ケーブルは、図4で矢印を有する細い線(論理xケーブル40、論理yケーブル42、および論理zケーブル44)によって示され、スプリット・ケーブル46は、矢印のない太い線(論理xケーブルの中央付近)として示されている。論理xケーブルは、x方向に沿って延び、同様に、論理yケーブルはy方向、論理zケーブルはz方向である。
図4に、大量並列スーパーコンピュータの配線および分割を示す。
グローバル・コンバイニング・ツリー信号およびグローバル割込み信号は、図5、6、および7の上部を比較することによってわかるように、トーラス信号と同一のリンク・チップおよびケーブルを介して経路指定される。したがって、正規再分割およびスプリット再分割によって、ツリーが、トーラスと正確に同一の形で論理副区画に分割される。論理副区画内では、各ミッドプレーンの入出力プロセッサが、区画内のツリーを接続するようにソフトウェアによって再構成される。
Claims (1)
- 並列コンピュータ・システムをハードウェア障害に対してトレラントにするために複数のプロセッサを含む前記コンピュータ・システムでフォールト・トレランスを提供する方法であって、
前記コンピュータ・システムに冗長待機プロセッサの余分なグループを設けることと、
冗長待機プロセッサの前記余分なグループを、ハードウェア障害を経験する前記コンピュータ・システムのプロセッサのグループの代わりに動作するように切り替えることと
前記コンピュータ・システムが、3次元トーラスとして接続されたa×b×c個の計算ノードのアレイを含み、各計算ノードが、6つの隣接する計算ノードへの+および−のx、y、z方向で、ラップ・リンクを含む6つのリンクによって接続する、
前記コンピュータ・システムが、リンクのグローバル・コンバイニング・ツリーを介する通信リンクと、グローバル割込み信号の組のツリー構造として類似するコンバイニング・ツリーも経路指定する
方法であって、
前記コンピュータ・システムは、3次元トーラスとして接続された、+および−のx、y、z方向で6つのトーラス・リンクを有する計算ノードを含むミッドプレーンを含み、前記ミッドプレーンに挿入されるリンク回路カードは6つのリンク・チップを有し、前記コンピュータ・システムのトーラス信号、グローバル・コンバイニング・ツリー信号、およびグローバル割込み信号は、異なるミッドプレーンの間で追跡する時にリンク・チップを介して通過し、
前記リンク・チップは、隣接するミッドプレーンを接続する正規論理xケーブルと該正規論理xケーブルに接続された2つの正規ポート(INとOUT)及びx方向でスプリットするために設けたスプリット・ケーブル(x方向)と2つのスプリット・ポート(INとOUT)と、ミッドプレーンxトーラスループに信号をリダイレクトするための2つのミッドプレーン(INとOUT)を有するx方向のリンク・チップと、y方向のリンク・チップ及びz方向のリンク・チップをそれぞれ有することで、正規ポートを正規ポートまたはミッドプレーン・ポートに経路指定したり、または、正規ポートをスプリット・ポートに経路指定することで、リダイレクトし、
グローバル・コンバイニング・ツリー信号およびグローバル割込み信号は、トーラス信号と同一のリンク・チップおよびケーブルを介して経路指定され、正規再分割およびスプリット再分割によって、ツリーが、トーラスと同一の形で論理副区画に分割され、前記論理副区画内では、ミッドプレーンの入出力プロセッサが、区画内のツリーを接続するようにソフトウェアによって再構成する、
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007144007A JP4577851B2 (ja) | 2001-02-24 | 2007-05-30 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US27112401P | 2001-02-24 | 2001-02-24 | |
PCT/US2002/005566 WO2002069469A1 (en) | 2001-02-24 | 2002-02-25 | Fault tolerance in a supercomputer through dynamic repartitioning |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007144007A Division JP4577851B2 (ja) | 2001-02-24 | 2007-05-30 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004532447A JP2004532447A (ja) | 2004-10-21 |
JP4524073B2 true JP4524073B2 (ja) | 2010-08-11 |
Family
ID=68499838
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002568482A Expired - Fee Related JP4524073B2 (ja) | 2001-02-24 | 2002-02-25 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
JP2007144007A Expired - Fee Related JP4577851B2 (ja) | 2001-02-24 | 2007-05-30 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007144007A Expired - Fee Related JP4577851B2 (ja) | 2001-02-24 | 2007-05-30 | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス |
Country Status (6)
Country | Link |
---|---|
US (1) | US7185226B2 (ja) |
EP (1) | EP1374360A4 (ja) |
JP (2) | JP4524073B2 (ja) |
KR (1) | KR100570145B1 (ja) |
CN (1) | CN1319237C (ja) |
WO (1) | WO2002069469A1 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1381963A4 (en) * | 2001-02-24 | 2008-02-13 | Ibm | ARITHMETIC FUNCTIONS IN TORUS AND TREE NETWORKS |
EP1374360A4 (en) * | 2001-02-24 | 2010-02-17 | Ibm | ERROR TOLERANCE IN A SUPERCOMPUTER THROUGH DYNAMIC REPARTITIONING |
US7340644B2 (en) * | 2002-12-02 | 2008-03-04 | Marvell World Trade Ltd. | Self-reparable semiconductor and method thereof |
US7185225B2 (en) * | 2002-12-02 | 2007-02-27 | Marvell World Trade Ltd. | Self-reparable semiconductor and method thereof |
US20060001669A1 (en) * | 2002-12-02 | 2006-01-05 | Sehat Sutardja | Self-reparable semiconductor and method thereof |
US7178059B2 (en) * | 2003-05-07 | 2007-02-13 | Egenera, Inc. | Disaster recovery for processing resources using configurable deployment platform |
JP3737810B2 (ja) * | 2003-05-09 | 2006-01-25 | 株式会社東芝 | 計算機システム及び故障計算機代替制御プログラム |
US7904663B2 (en) * | 2003-12-18 | 2011-03-08 | International Business Machines Corporation | Secondary path for coherency controller to interconnection network(s) |
US8336040B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US9178784B2 (en) | 2004-04-15 | 2015-11-03 | Raytheon Company | System and method for cluster management based on HPC architecture |
US8335909B2 (en) | 2004-04-15 | 2012-12-18 | Raytheon Company | Coupling processors to each other for high performance computing (HPC) |
US7376890B2 (en) * | 2004-05-27 | 2008-05-20 | International Business Machines Corporation | Method and system for checking rotate, shift and sign extension functions using a modulo function |
US7475274B2 (en) * | 2004-11-17 | 2009-01-06 | Raytheon Company | Fault tolerance and recovery in a high-performance computing (HPC) system |
KR100748715B1 (ko) * | 2005-12-27 | 2007-08-13 | 주식회사 텔레칩스 | 하드웨어 작업관리 장치 |
US20070174655A1 (en) * | 2006-01-18 | 2007-07-26 | Brown Kyle G | System and method of implementing automatic resource outage handling |
US8078907B2 (en) * | 2006-01-19 | 2011-12-13 | Silicon Graphics, Inc. | Failsoft system for multiple CPU system |
US8516444B2 (en) | 2006-02-23 | 2013-08-20 | International Business Machines Corporation | Debugging a high performance computing program |
US7512836B2 (en) | 2006-12-11 | 2009-03-31 | International Business Machines Corporation | Fast backup of compute nodes in failing midplane by copying to nodes in backup midplane via link chips operating in pass through and normal modes in massively parallel computing system |
JP2008165381A (ja) * | 2006-12-27 | 2008-07-17 | Ricoh Co Ltd | 画像処理装置及び画像処理方法 |
US8412981B2 (en) * | 2006-12-29 | 2013-04-02 | Intel Corporation | Core sparing on multi-core platforms |
US20080235454A1 (en) * | 2007-03-22 | 2008-09-25 | Ibm Corporation | Method and Apparatus for Repairing a Processor Core During Run Time in a Multi-Processor Data Processing System |
US9330230B2 (en) * | 2007-04-19 | 2016-05-03 | International Business Machines Corporation | Validating a cabling topology in a distributed computing system |
US7984150B2 (en) * | 2007-07-31 | 2011-07-19 | Hewlett-Packard Development Company, L.P. | Cell compatibilty in multiprocessor systems |
JP2009104300A (ja) * | 2007-10-22 | 2009-05-14 | Denso Corp | データ処理装置及びプログラム |
US8327114B1 (en) | 2008-07-07 | 2012-12-04 | Ovics | Matrix processor proxy systems and methods |
US8145880B1 (en) | 2008-07-07 | 2012-03-27 | Ovics | Matrix processor data switch routing systems and methods |
US7958341B1 (en) | 2008-07-07 | 2011-06-07 | Ovics | Processing stream instruction in IC of mesh connected matrix of processors containing pipeline coupled switch transferring messages over consecutive cycles from one link to another link or memory |
US7870365B1 (en) | 2008-07-07 | 2011-01-11 | Ovics | Matrix of processors with data stream instruction execution pipeline coupled to data switch linking to neighbor units by non-contentious command channel / data channel |
US8131975B1 (en) | 2008-07-07 | 2012-03-06 | Ovics | Matrix processor initialization systems and methods |
JP2010086363A (ja) * | 2008-10-01 | 2010-04-15 | Fujitsu Ltd | 情報処理装置及び装置構成組み換え制御方法 |
US20110202995A1 (en) * | 2010-02-16 | 2011-08-18 | Honeywell International Inc. | Single hardware platform multiple software redundancy |
US8718079B1 (en) | 2010-06-07 | 2014-05-06 | Marvell International Ltd. | Physical layer devices for network switches |
US8713362B2 (en) | 2010-12-01 | 2014-04-29 | International Business Machines Corporation | Obviation of recovery of data store consistency for application I/O errors |
US8694821B2 (en) | 2010-12-03 | 2014-04-08 | International Business Machines Corporation | Generation of standby images of applications |
CN111811116A (zh) * | 2020-07-07 | 2020-10-23 | 北京丰联奥睿科技有限公司 | 一种多联空调系统的配置方法 |
WO2023068960A1 (ru) * | 2021-10-20 | 2023-04-27 | Федеральное Государственное Унитарное Предприятие "Российский Федеральный Ядерный Центр - Всероссийский Научно - Исследовательский Институт Технической Физики Имени Академика Е.И. Забабахина" | Компактный суперкомпьютер |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61201365A (ja) * | 1985-03-04 | 1986-09-06 | Nippon Telegr & Teleph Corp <Ntt> | 並列処理システムの自動再構成方式 |
JPS62274454A (ja) * | 1986-05-23 | 1987-11-28 | Hitachi Ltd | 並列処理計算機 |
US4907232A (en) * | 1988-04-28 | 1990-03-06 | The Charles Stark Draper Laboratory, Inc. | Fault-tolerant parallel processing system |
JPH03132861A (ja) * | 1989-10-19 | 1991-06-06 | Agency Of Ind Science & Technol | マルチプロセッサ・システムの再構成制御方式 |
US5963746A (en) * | 1990-11-13 | 1999-10-05 | International Business Machines Corporation | Fully distributed processing memory element |
US5594918A (en) * | 1991-05-13 | 1997-01-14 | International Business Machines Corporation | Parallel computer system providing multi-ported intelligent memory |
US5715391A (en) * | 1991-11-15 | 1998-02-03 | International Business Machines Corporation | Modular and infinitely extendable three dimensional torus packaging scheme for parallel processing |
US5271014A (en) | 1992-05-04 | 1993-12-14 | International Business Machines Corporation | Method and apparatus for a fault-tolerant mesh with spare nodes |
EP0570729A3 (en) * | 1992-05-22 | 1994-07-20 | Ibm | Apap i/o programmable router |
JPH06290158A (ja) * | 1993-03-31 | 1994-10-18 | Fujitsu Ltd | 再構成可能なトーラス・ネットワーク方式 |
US5592610A (en) * | 1994-12-21 | 1997-01-07 | Intel Corporation | Method and apparatus for enhancing the fault-tolerance of a network |
US5884018A (en) * | 1997-01-28 | 1999-03-16 | Tandem Computers Incorporated | Method and apparatus for distributed agreement on processor membership in a multi-processor system |
US6115829A (en) * | 1998-04-30 | 2000-09-05 | International Business Machines Corporation | Computer system with transparent processor sparing |
US6189112B1 (en) * | 1998-04-30 | 2001-02-13 | International Business Machines Corporation | Transparent processor sparing |
GB2359162B (en) * | 1998-11-10 | 2003-09-10 | Fujitsu Ltd | Parallel processor system |
FR2795840B1 (fr) * | 1999-07-02 | 2001-08-31 | Commissariat Energie Atomique | Reseau de processeurs paralleles avec tolerance aux fautes de ces processeurs, et procede de reconfiguration applicable a un tel reseau |
US6789213B2 (en) * | 2000-01-10 | 2004-09-07 | Sun Microsystems, Inc. | Controlled take over of services by remaining nodes of clustered computing system |
JP3674515B2 (ja) * | 2000-02-25 | 2005-07-20 | 日本電気株式会社 | アレイ型プロセッサ |
AU2060002A (en) * | 2000-10-06 | 2002-04-22 | Pact Inf Tech Gmbh | Method and device |
US7555566B2 (en) | 2001-02-24 | 2009-06-30 | International Business Machines Corporation | Massively parallel supercomputer |
EP1374360A4 (en) * | 2001-02-24 | 2010-02-17 | Ibm | ERROR TOLERANCE IN A SUPERCOMPUTER THROUGH DYNAMIC REPARTITIONING |
US7080156B2 (en) * | 2002-03-21 | 2006-07-18 | Sun Microsystems, Inc. | Message routing in a torus interconnect |
-
2002
- 2002-02-25 EP EP02706408A patent/EP1374360A4/en not_active Withdrawn
- 2002-02-25 US US10/469,002 patent/US7185226B2/en not_active Expired - Fee Related
- 2002-02-25 KR KR1020037010921A patent/KR100570145B1/ko not_active IP Right Cessation
- 2002-02-25 WO PCT/US2002/005566 patent/WO2002069469A1/en active IP Right Grant
- 2002-02-25 JP JP2002568482A patent/JP4524073B2/ja not_active Expired - Fee Related
- 2002-02-25 CN CNB028054253A patent/CN1319237C/zh not_active Expired - Fee Related
-
2007
- 2007-05-30 JP JP2007144007A patent/JP4577851B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2002069469A1 (en) | 2002-09-06 |
JP4577851B2 (ja) | 2010-11-10 |
KR100570145B1 (ko) | 2006-04-12 |
CN1319237C (zh) | 2007-05-30 |
JP2004532447A (ja) | 2004-10-21 |
KR20030077034A (ko) | 2003-09-29 |
CN1493101A (zh) | 2004-04-28 |
US7185226B2 (en) | 2007-02-27 |
JP2007220147A (ja) | 2007-08-30 |
EP1374360A1 (en) | 2004-01-02 |
EP1374360A4 (en) | 2010-02-17 |
US20040153754A1 (en) | 2004-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4524073B2 (ja) | 動的再分割を介するスーパーコンピュータでのフォールト・トレランス | |
Despain et al. | X-Tree: A tree structured multi-processor computer architecture | |
US8933715B2 (en) | Configurable vertical integration | |
US8549092B2 (en) | Memory network methods, apparatus, and systems | |
KR101091360B1 (ko) | 토러스 네트워크를 가지는 병렬 컴퓨터 시스템 상의 오류 복구 | |
EP1665065B1 (en) | Integrated data processing circuit with a plurality of programmable processors | |
KR101082701B1 (ko) | 정보 처리 시스템, 통신 제어 장치 및 방법 | |
US20160328357A1 (en) | Computer subsystem and computer system with composite nodes in an interconnection structure | |
US5271014A (en) | Method and apparatus for a fault-tolerant mesh with spare nodes | |
CN112188325A (zh) | 使用具有一对多光交换机的光网络的可重新配置的计算平台 | |
US8117502B2 (en) | Bisectional fault detection system | |
US7529963B2 (en) | Cell boundary fault detection system | |
Min et al. | Design and analysis of a multiprocessor system with extended fault tolerance | |
US7826379B2 (en) | All-to-all sequenced fault detection system | |
Takanami et al. | A built-in self-reconfigurable scheme for 3D mesh arrays | |
Tzeng | Reliable butterfly distributed-memory multiprocessors | |
Davis IV et al. | The performance analysis of partitioned circuit switched multistage interconnection networks | |
Rim et al. | An architecture for high availability multi-user systems | |
Takanami et al. | Degradable restructuring of mesh-connected processor arrays with spares on orthogonal sides | |
Jindal | Simulation Analysis of Permutation Passibility behavior of Multi-stage Interconnection Networks A Thesis Report Submitted in the partial fulfillment of the requirements for the award of the degree of ME in Software Engineering | |
Theobald | The W‐Network: A low‐cost fault‐tolerant multistage interconnection network for fine‐grain multiprocessing | |
Horita et al. | A polynomial time algorithm for reconfiguring the 1 1/2 track-switch model with PE and bus faults |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050830 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20051118 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20051128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070517 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070622 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100423 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100531 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |