CN1493101A - 超级计算机中通过动态重新划分的容错 - Google Patents

超级计算机中通过动态重新划分的容错 Download PDF

Info

Publication number
CN1493101A
CN1493101A CNA028054253A CN02805425A CN1493101A CN 1493101 A CN1493101 A CN 1493101A CN A028054253 A CNA028054253 A CN A028054253A CN 02805425 A CN02805425 A CN 02805425A CN 1493101 A CN1493101 A CN 1493101A
Authority
CN
China
Prior art keywords
computer system
tree
midplane
link
cable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028054253A
Other languages
English (en)
Other versions
CN1319237C (zh
Inventor
陈东
保罗W·科特尤斯
艾伦G·加拉
托德E·塔肯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1493101A publication Critical patent/CN1493101A/zh
Application granted granted Critical
Publication of CN1319237C publication Critical patent/CN1319237C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D25/00Pumping installations or systems
    • F04D25/16Combinations of two or more pumps ; Producing two or more separate gas flows
    • F04D25/166Combinations of two or more pumps ; Producing two or more separate gas flows using fans
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D27/00Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
    • F04D27/004Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2051Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17356Indirect interconnection networks
    • G06F15/17368Indirect interconnection networks non hierarchical topologies
    • G06F15/17381Two dimensional, e.g. mesh, torus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • G09G5/006Details of the interface to the display terminal
    • G09G5/008Clock recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L7/00Arrangements for synchronising receiver with transmitter
    • H04L7/02Speed or phase control by the received code signals, the signals containing no special synchronisation information
    • H04L7/033Speed or phase control by the received code signals, the signals containing no special synchronisation information using the transitions of the received signal to control the phase of the synchronising-signal-generating means, e.g. using a phase-locked loop
    • H04L7/0337Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals
    • H04L7/0338Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals the correction of the phase error being performed by a feed forward loop
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/70Control systems characterised by their outputs; Constructional details thereof
    • F24F11/72Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure
    • F24F11/74Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity
    • F24F11/77Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity by controlling the speed of ventilators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B30/00Energy efficient heating, ventilation or air conditioning [HVAC]
    • Y02B30/70Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Algebra (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Thermal Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

通过提供额外冗余备用处理器组和通过设计系统使得这些额外的处理器组可以与发生硬件故障的任何组交换而使多处理器并行计算机容忍硬件故障。这一交换可以在软件控制下进行,从而允许整个计算机承受硬件故障,但是在备用处理器交换后,对软件来说仍然象是一个原来的、全部起作用的系统。

Description

超级计算机中通过动态重新划分的容错
交叉参考
本发明要求享受于2001年2月24日递交的、名为“MassivelyParallel Supercomputer”的共同拥有的待审美国临时专利申请60/271,124的优先权,,它的全部内容和公开特意被结合在这里作为参考,如同在这里完全叙述的一样。本专利申请另外与下面共同拥有的、与本申请同一天递交的待审美国专利申请相关,它们中的每一篇的全部内容和公开特意被包含在这里作为参考,如同在这里完全叙述的一样。美国专利申请(YOR920020027US1,YOR920020044US1(15270)),名称为“Class Networking Routing”;美国专利申请(YOR920020028US1(15271)),名称为“A Global Tree Network for ComputingStructures”;美国专利申请(YOR920020029US1(15272)),名称为“Global Interrupt and Barrier Networks”;美国专利申请(YOR920020030US1(15273)),名称为“Optimized Scalable NetworkSwitch”;美国专利申请(YOR920020031US1,YOR920020032US1(15258)),名称为“Arithmetic Functions in Torus and TreeNetworks”;美国专利申请(YOR920020033US1,YOR920020034US1(15259)),名称为“Data Capture Technique for High SpeedSignaling”;美国专利申请(YOR920020035US1(15260)),名称为“Managing Coherence Via Put/Get Windows”;美国专利申请(YOR920020036US1,YOR920020037US1(15261)),名称为“Low LatencyMemory Access And Synchronization”;美国专利申请(YOR920020038US1(15276)),名称为“Twin-Tailed Fail-Over forFileservers Maintaining Full Performance”;美国专利申请,序列号No.(YOR920020039US1(15277)),名称为“Fault IsolationThrough No-Overhead Li nk Level Checksums”;美国专利申请(YOR920020040US1(15278)),名称为“Ethernet Addressing viaPhysical Location for Massively Parallel Systems””;美国专利申请,序列号No.(YOR920020041US1(15274)),名称为“FaultTolerance in a Supercomputer Through Dynamic Repartitioning”;美国专利申请(YOR920020042US1(15279)),名称为“CheckpointingFilesystem”;美国专利申请(YOR920020043US1(15262)),名称为“Efficient Implementation of Multidimensional Fast Transformon a Distributed-Memory Parallel Multi-Node Computer”;美国专利申请(YOR9-20010211US2(15275)),名称为“A Novel MasssivelyParallel Supercomputer”;和美国专利申请(YOR920020045US1(15263)),名称为“Smart Fan Modules and System”。
发明背景技术
发明领域
本发明一般涉及在并行计算机互联网络中通过软件控制的动态重新划分提供容错。
背景技术
巨大类的重要计算可以由巨型并行计算机系统执行。这种系统包括许多同样的计算节点,每一个这样的节点通常包括一个或者多个CPU、存储器、和一个或者多个网络接口来连接它与其它节点。
在于2001年2月24日递交的、名为“Massively ParallelSupercomputer”的相关美国临时专利申请60/271,124中说明的计算机使用芯片上系统(SOC)技术来建立具有高吞吐量的可升级的合算的计算系统。SOC技术已经使其适于使用嵌入部件库在单个芯片上建立整个多处理器节点,包括具有集成的一级超高速缓冲存储器的CPU内核。这种封装技术极大地减少了一个节点的部件数目,允许建立可靠的大型机器。
发明概述
本发明通过动态重新划分提供在超级计算机中的容错。通过提供另外几组冗余备用处理器和通过设计系统使得这些额外的处理器组可以与发生硬件故障的任何组交换,使多处理器并行计算机容忍硬件故障备用处理器。这一交换可以在软件的控制下进行,从而允许整个计算机承受硬件故障,但是在与备用处理器交换后对软件仍然象是一个原来的、全部起作用的系统。
附图简要说明
本领域技术人员结合附图参考后面对几个实施例的详细说明,可以更容易理解通过动态重新划分在超级计算机中提供容错的本发明的上述目的和优点,其中在几个视图中使用相同的附图标记表示相似的元件,附图中:
图1显示了并行计算机的一个非常简化的8节点部分和在这8个节点之间的环型(torus)链接。它是全部节点阵列的环型链接的一部分显示,其中,每一节点实际有在+和-x、y、z方向上的6个环型链接,并且链接在每一逻辑方向上(x、y或z)从最高标号节点覆盖到最低标号节点的,以便为系统中的所有节点维持在6个方向上的6个环型链接。
图2是巨型并行超级计算机的全局组合树的一个非常简化的表示,并且是一个完全的全局组合树的一部分显示,完全的全局组合树连接在计算节点的整个划分上的所有节点。
图3显示了控制重新划分的链接芯片的操作。
图4可以概念性地视为巨型并行超级计算机的平面图,并且显示了由8个通道分开的每行有8个计算机架的9行,其中每一行内的8个机架中的每一个包括两个中平面(midplane),每一中平面包括8×8×8个计算节点。
图5显示了通过连接相邻中平面的电缆路由选择环型信号进入和离开一个链接卡,通过该链接卡,然后进入和离开在当前中平面上的环型。链接ASIC可选地连接当前中平面上的3维8×8×8环型到较大的机器上的环型。
图6显示了通过连接相邻中平面的电缆路由选择全局树信号进入和离开一个链接卡,通过该链接卡,然后进入和离开中平面计算ASIC,所述树信号是全局组合树网络的信号。链接ASIC和顶级计算ASIC共同决定当前中平面上的树如何被连接到较大系统中的全局组合树。
图7显示了通过连接相邻中平面的电缆路由选择中断信号进入和离开一个链接卡,通过该链接卡ASIC和FPGA,然后进入和离开该中平面,所述中断信号是全局中断信号网络的信号。
本发明的详细描述
在美国临时申请60/271,124中说明的巨型并行超级计算机说明了具有(x,y,z)  (这里x=64,y=32,z=32)计算节点的巨型并行超级计算机,这些节点由几个分开的通信网络连接。这些网络中的第一个是3维(3D)环型,其中每一个计算节点由在+和-x、y、z方向中的6个链接连接到它的6个逻辑上相邻的最近的邻居计算节点,并且每一计算节点有6个双向环型端口。
该巨型并行超级计算机包括64×32×32个计算节点,其中,每一计算节点包括一个具有两个处理器的ASIC,它的一个处理器作为巨型并行超级计算机的一部分执行处理,而第二处理器执行消息传递操作。
图4可以被概念性地视为是巨型并行超级计算机的平面图,并且显示了由8个通道分开的9行计算机架,以方便服务。每一行中的9个机架中的每一个大约有冰箱大小,并且包含两个中平面。每一中平面是一个基本构造块,并且包括8×8×8个计算节点,其中每一计算节点包括一个多处理器,如上所述。
物理机器结构最紧密地与3D环型绑在一起。这是一个简单的3维最近邻居互联,它在边缘上被“覆盖”。所有6个最近的环型邻居是等距的,除了对于“飞行时间”的差别,诸如存在在计算节点ASIC的不同机架之间,以使代码容易书写和优化。因此每一节点支持6个独立的双向最近邻居链接。
图1显示了一个并行超级计算机环型的8个节点和在这8个节点之间的链接的非常简化的视图,并且是全部节点阵列的一部分,其中每一节点实际上有在+和-x、y、z方向中的6个环型链接。这些链接在每一逻辑方向(x,y或z)从编号最高的节点覆盖到编号最低的节点,以便为在该系统中的所有节点维持在6个方向上的6个环型链接。图1还示意地显示了一个x,y,z坐标系,其与图4的x,y,z坐标系一致。巨型并行超级计算机具有计算电路卡和链接电路卡,它们插入到中平面中。电路卡以2×2×2子立方块连线,而中平面,每一机架有两个,被连线为8×8×8的子立方块。运行的64k机器是64×32×32环型,虽然为提供冗余以补偿故障部件该机器被物理实现为72×32×32环型,但是其中另外的8×32×32个节点为冗余的目的提供,以提供额外冗余备用处理器组。
除了每一节点到6个最近的邻居节点的6个环型链接外,巨型并行超级计算机包括两个另外完全分开的通信链接网络。第二通信链接网络是全局组合链接树,其如图2和图6所示。第三通信链接网络是一组全局中断信号,如图7所示。组合链接树和全局中断信号在它们的树结构上彼此相似,并在机器的整个划分(64×32×32个计算节点)上提供通信,这两者都在下面说明。
图2是巨型并行超级计算机的全局组合树的一个非常简化的表示,它延伸到整个机器,允许数据从任何节点发送到所有其它节点(广播),或节点的一个子集。也可以计算全局和、最小值和最大值。消息传递在全局组合树上得到支持,并在每一计算节点内由第二处理器控制,允许独立于该计算节点进行加强的操作,像大家对大家的通信。
根据本发明,多处理器并行计算机通过提供额外的冗余备用处理器组和通过设计系统使得这些额外的处理器组可以与经历硬件故障的任何组交换,实现对硬件故障的容错。这种交换可以在软件控制下,从而允许整个计算机承受硬件故障,但是在交换备用处理器后对软件来说似乎仍然是原来的、完全起作用的系统。
系统重新划分
在这里说明的巨型并行超级计算机中,有3个主要的分开的互联网络可以从这一动态重新划分中受益:3维环型,全局组合树,和全局中断组。巨型并行超级计算机被组织为每一中平面有512个多处理器(8×8×8个节点)的组,具有链接芯片,它控制在中平面之间的电缆上的信号。链接芯片(每一链接电路卡6个芯片)是允许系统软件重新配置的主要方式。
巨型并行超级计算机逻辑上可以由软件控制重新划分。这允许在物理上由电缆连接到一起作为一个系统的大的机架组(其在图4所示)在逻辑上被分成多个子系统。每一个这些逻辑上被分开的子系统然后可以同时运行不同的代码,或者某些被分开的子系统可以被维护而其它子系统进行计算。因此逻辑上的重新划分便利了代码开发和系统维护。
图3显示了并且下面的部分说明了控制重新划分的链接芯片的操作。随后的部分详细说明可能的子划分的类型。
链接芯片
巨型并行超级计算机的环型、全局组合树和全局中断信号当在不同中平面之间跟踪时通过链接芯片。这一芯片用作两种功能。第一,它重新驱动中平面之间的电缆上的信号,改善在不同中平面上的计算ASIC之间的长的、有损耗的追踪一电缆一追踪连接中的高速信号形状和振幅。第二,该链接芯片在它的不同端口之间重定向信号。正是这一重定向功能允许巨型并行超级计算机被动态重新划分为多个逻辑上分开的系统。
链接芯片为系统重新划分执行两类环型信号重定向,称为规律重定向和分裂重定向。
规律重定向
规律重定向从大型计算系统的一个逻辑方向(沿x、y或z轴的任何一个,如图4所示)中去掉一个中平面。规律重定向如图3中的方式1和2所示。它涉及链接芯片的端口C、F、A和B。端口C和F由在特定环型逻辑方向x、y或z的当前中平面和较高或者较低级次的中平面之间的电缆连接到正和负方向,其如图5顶部所示。这些电缆连接由图4中标记为逻辑X电缆40、逻辑Y电缆42和逻辑Z电缆44的箭头表示。端口A和B连接到一个中平面环型回路,该回路通过8个串接的计算处理器在中平面内循环,其如图3所示,还在图5中被示为中平面X环型51、中平面Y环型52和中平面Z环型53。
当以方式1操作时,链接芯片从先前的中平面通过端口C、通过由中间环型回路表示的当前中平面路由选择信号继续通过端口F到下一中平面。从而使当前中平面作为更大计算系统的一部分。
当以方式2操作时,来自前一中平面的电缆信号通过端口C进入,并且直接通过端口F传递到下一中平面,从更大的计算系统中除去当前中平面。也是在方式2下,在当前中平面上的环型信号通过端口A和B连接到中平面并且在中平面内形成回路,建立较小的计算系统。
分裂重定向
分裂重定向允许把机器的大的64×32×32节点部分分成两个相等的32×32×32一半或者4个16×32×32的四分之一。如在链接芯片中实现的那样,分裂重定向可以允许多种系统划分。然而,由于费用和在长电缆上的信号整体性考虑,分裂重定向仅在逻辑X方向和仅在为允许分割大系统为两个相等的一半或4个四分之一所需要的数目的机架行(图4)上物理上用电缆连接。分裂重定向如图1中的方式3和4表示。虽然在图1中为说明起见只显示出两个方式,方式3和4,但是需要8个方式、3到10来实现分裂重定向,剩余的方式以类似方式操作。在分裂重定向中,链接芯片重新定义电缆端口,它考虑是到邻居中平面的正或负电缆方向。它要么重新定义从规律端口C到分裂端口D或E的正方向端口,要么重新定义从规律端口F到分裂端口D或E或两者的负方向端口。图4中用带箭头的细线(逻辑x电缆40,逻辑y电缆42,逻辑z电缆44,)表示规律电缆,用不带箭头的粗线(靠近逻辑x电缆中心)表示分裂电缆46。逻辑x电缆沿x方向延伸,相似地逻辑y电缆在y方向、逻辑z电缆在z方向延伸。
图4显示了逻辑X电缆如何在机架之间连接。行号由在左边的数字0-8指示。注意,逻辑x电缆常常使用在行0-2、1-3、2-4、3-5之间的电缆等连接到其它每一行,,除了末端用一个电缆0-1和一个电缆7-8。这些电缆允许沿x轴连接一个中平面到邻居中平面,不需要使任何一根电缆过度地长。沿y和z轴可以使用相似的电缆连接方案。
分裂电缆允许不同于沿规律逻辑x电缆的x维的环型连接。例如,如果要把机器分成两个较小的机器,使第一机器有0-4行,第二机器有5-8行,则分裂电缆46’可以切换到逻辑电缆40’的位置,使得用于第一机器的x电缆现在是0-2、2-4、4-3、3-1和1-0,第二机器可以以相似方式切换。
环型划分
图4显示了巨型并行超级计算机的电缆连接和划分。
逻辑重新划分允许了如何把机器细分的一个选择范围。图4显示了规律和分裂划分两者的例子,并且显示了一个中平面如何可以从系统分开用于维护。
分裂划分可以把大的72×32×32电缆连接的巨型并行超级计算机分成两个大约相等的一半的子系统,40×32×32的子系统和32×32×32子系统。这可以用两种方法中的一种进行,以保证当一个中平面发生故障时总能建立两个32×32×32子系统,而与该中平面物理上位于何处无关(通过以以上在分裂重定向下说明的方式使用分裂电缆46)。要么40×32×32子系统是顶部的5行机架,32×32×32子系统是底部的4行,要么反之。例如,如果由在图4中的方形4/5指示的机架中的第一行中的一个中平面需要维护,则可以使用分裂划分在顶4行机架和底5行机架之间分割系统。在这种情况下,编号为0、1、2、3和4的底部5行形成一个40×32×32的子系统,而顶部4行5、6、7和8(所有具有编号6的都指示系统划分#6)形成一个分开的32×32×32子系统。两个子系统都可以以这些尺寸运行,或者它们可以使用规律划分进一步细分。
规律划分可以把一个1中平面(8节点)长的部分从任何逻辑环型方向分开。如果在图4中的行1的4/5机架中的一个中平面发生故障,则可以使用规律划分在逻辑x方向上把行1从40×32×32的较低系统的其余部分分开,建立在行0、2、3和4标号1的32×32×32的系统(系统#1)和在行1中的一个8×32×32系统,它的机架用号码2、3和4/5标号。在逻辑y方向的行1中的这一8×32×32部分的规律划分把3和4/5机架从2个机架中分出来,产生一个8×24×32部分(2个机架,系统#2)和一个8×8×32部分(3和4/5机架)。在逻辑z方向的8×8×32部分的两次规律划分分离4/5机架和3机架,产生8×8×16部分(2机架,系统#3)和两个8×8×8部分(4/5机架,系统#4和#5),可以给其中之一进行维护,而所有其它子划分进行计算。可以以不同的组合使用相似的划分来细分和分离不同的子部分。
图5显示了通过连接相邻中平面的电缆路由选择环型信号进入和离开一个链接卡,通过该链接卡,然后进入和离开在当前中平面上的环型。链接ASIC可选地连接当前中平面上的3维8×8×8环型到较大的机器上的环型。在图5的顶部,把+和-x、y和z信号连接到图4的各+和-逻辑x电缆40、逻辑y电缆42、和逻辑z电缆44。到和来自在图5中的x方向上的“到分裂1”和“到分裂2”的信号被连接到图4的+和-分裂电缆46。如上所述,只沿x方向提供分裂电缆46,不过在更复杂的实施例中它们也可以沿y和z方向提供。链接卡包括用于每一x、y和z方向的+和-ASIC,它们的操作如上面已经参考图3解释的那样。
树和中断重划分
全局组合树和全局中断信号通过和环型信号同样的链接芯片和电缆路由选择,这可以通过比较图5、6和7的最上面的部分看出。因此规律和分裂重新划分以和环型完全同样的方式把树分成逻辑子划分。在一个逻辑子划分中,每一中平面上的I/O处理器然后被软件配置以连接该划分内的树。
图6和7显示了通过在中平面之间的电缆和链接芯片(用所显示的x、y和z链接芯片)路由选择全局组合树和全局中断信号,所述中平面也携带环型信号。当重新配置链接芯片时,它设定在每一系统逻辑划分中哪一些中平面被连接。然而,在重新划分时,组合树网络和中断信号网络两者都需要被进一步配置,以便组合树的头部和中断信号网络的头部都通过每一逻辑机器划分定义。这可以以许多方式实现。
图6显示了全局树信号的路由选择,全局树信号是全局组合树网络的信号,它们经由和图5的环型信号完全一样的电缆路由选择。
对于全局组合树,巨型并行超级计算机使用在每一中平面上的一组顶级中平面计算处理器(ASIC)集中定义到相邻中平面的6个离开中平面的电缆方向(通过链接芯片的信号)的哪一个被定义为上树(up-tree)(从透视图看,朝向图2的树顶),或者向树中的较高逻辑级行进,和哪一个被定义为下树(down-tree)(从透视图看,朝向图2的树底)。这些顶级中平面ASIC每一个有3个全局树端口,这些端口可以在软件控制下被切换,以定义哪些端口是上树和下树。总起来说这些顶级中平面ASIC定义6个离开中平面的电缆链接中的一个为上树,其它5个是下树,并且它们为其它较低级中平面ASIC提供一个树连接,如图6所示。
图7显示了中断信号的路由选择,中断信号是全局中断信号网络的信号,它们也通过和图5的环型信号完全一样的电缆路由选择。
因为中断是简单的“与”和“或”功能,因此当连接多个下树分支到一个上树链接时不需要中平面计算ASCI的复杂的处理器来执行算术运算。不需要一组顶级计算ASIC来连接中断网络的离开中平面的上树和下树链接。从而与图6的全局树路由选择相比较,图7的中断路由选择可以被简化。对于全局中断,图7的链接芯片通过线54在它们之间通信,并通过线55一起给出单个双向上树信号到在该链接卡上的链接FPGA(ASIC浮点门阵列)。这一FPGA可以执行下树广播和上树“与”和“或”逻辑功能。它通过5个下树电缆连接传递下树信号并进入中平面。
图5、6和7表示,所有环型信号、全局树信号、和中断信号在电缆和链接卡之间的路由选择完全相同。所有3个网络通过同样的电缆传播,每一个链接卡处理所有3种类型的网络的所有3类信号的路由选择和重新划分。
虽然这里详细说明了用于通过动态重新划分在超级计算机中容错的本发明的几个实施例和变体,但是显然,本发明的公开和教导对于本领域技术人员将建议许多可供选择的设计。

Claims (11)

1.一种用于在包括多个并行处理器的并行计算机系统中提供容错的方法,以使该计算机系统容忍硬件故障,包括:
给该计算机系统提供额外的冗余备用处理器组;
设计该计算机系统,使得可以切换该冗余备用处理器组以取代经历硬件故障的计算机系统的处理器组运行。
2.如权利要求1的方法,其特征在于:所述切换在软件控制下执行,从而允许整个计算机系统承受硬件故障,并且在切换到备用处理器组后该计算机系统对于软件来说看上去像完全起作用和运行着的计算机系统。
3.如权利要求1的方法,其特征在于:所述计算机系统包括一个巨型并行计算机系统,它包括多个基本相同的计算节点,每一计算节点包括一个或者多个CPU、存储器、和一个或者多个连接它与其它计算节点的网络接口。
4.如权利要求1的方法,其特征在于:所述计算机系统包括一个a×b×c计算节点的阵列,其被连接为为3维环型,其中,每一计算节点由在+和-x、y、z方向的6个链接,包括覆盖链接,连接到6个相邻的计算节点。
5.如权利要求4的方法,其特征在于:每一计算节点包括带有一个多处理器的ASIC,其中一个处理器作为巨型并行超级计算机的一部分执行处理,和一个第二处理器,它执行计算节点的消息传递操作。
6.如权利要求4的方法,其特征在于:所述计算机系统还包括一个在全局组合链接树上的通信链接和用于一组全局中断信号的相似的组合树。
7.如权利要求6的方法,其特征在于:所述计算机系统的环型、全局组合树、和全局中断信号通过一个链接芯片,该链接芯片在该链接芯片的不同端口之间重定向信号以使该计算机系统被划分为多个逻辑上分开的系统。
8.如权利要求7的方法,其特征在于:所述链接芯片还用作重新驱动在中平面之间的电缆上的信号,以改善这些信号的高速形状和振幅。
9.如权利要求6的方法,其特征在于:每一链接芯片执行两类信号重定向,规律重定向和分裂重定向,其中规律重定向从沿所述计算机系统的x、y或z轴中的任何一个的逻辑方向除去一个中平面,分裂重定向允许分割所述计算机系统为两个一半或4个四分之一。
10.如权利要求6的方法,其特征在于:全局组合树和全局控制信号通过和环型信号同样的链接芯片和电缆进行路由选择,使得规律和分裂重定向和重新划分以和环型完全同样的方式改变该树为逻辑子划分。
11.如权利要求10的方法,其特征在于:在重新划分时,进一步配置全局组合树和中断信号,使得组合树的头部和中断网络的头部都遍及每一逻辑机器划分进行定义。
CNB028054253A 2001-02-24 2002-02-25 超级计算机中通过动态重新划分的容错 Expired - Fee Related CN1319237C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US27112401P 2001-02-24 2001-02-24
US60/271,124 2001-02-24
PCT/US2002/005566 WO2002069469A1 (en) 2001-02-24 2002-02-25 Fault tolerance in a supercomputer through dynamic repartitioning

Publications (2)

Publication Number Publication Date
CN1493101A true CN1493101A (zh) 2004-04-28
CN1319237C CN1319237C (zh) 2007-05-30

Family

ID=68499838

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028054253A Expired - Fee Related CN1319237C (zh) 2001-02-24 2002-02-25 超级计算机中通过动态重新划分的容错

Country Status (6)

Country Link
US (1) US7185226B2 (zh)
EP (1) EP1374360A4 (zh)
JP (2) JP4524073B2 (zh)
KR (1) KR100570145B1 (zh)
CN (1) CN1319237C (zh)
WO (1) WO2002069469A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367223C (zh) * 2004-05-27 2008-02-06 国际商业机器公司 用于发现电路中的缺陷的方法和系统
CN101271417B (zh) * 2007-03-22 2010-10-13 国际商业机器公司 修复数据处理系统的方法、数据处理系统及信息处置系统
CN101359320B (zh) * 2007-07-31 2012-06-27 惠普开发有限公司 多处理器系统中的单元兼容性

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100592752B1 (ko) * 2001-02-24 2006-06-26 인터내셔널 비지네스 머신즈 코포레이션 토러스 및 트리 네트워크에서의 산술 기능
WO2002069469A1 (en) * 2001-02-24 2002-09-06 International Business Machines Corporation Fault tolerance in a supercomputer through dynamic repartitioning
US7340644B2 (en) * 2002-12-02 2008-03-04 Marvell World Trade Ltd. Self-reparable semiconductor and method thereof
US20060001669A1 (en) * 2002-12-02 2006-01-05 Sehat Sutardja Self-reparable semiconductor and method thereof
US7185225B2 (en) * 2002-12-02 2007-02-27 Marvell World Trade Ltd. Self-reparable semiconductor and method thereof
US7178059B2 (en) * 2003-05-07 2007-02-13 Egenera, Inc. Disaster recovery for processing resources using configurable deployment platform
JP3737810B2 (ja) * 2003-05-09 2006-01-25 株式会社東芝 計算機システム及び故障計算機代替制御プログラム
US7904663B2 (en) * 2003-12-18 2011-03-08 International Business Machines Corporation Secondary path for coherency controller to interconnection network(s)
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US7475274B2 (en) * 2004-11-17 2009-01-06 Raytheon Company Fault tolerance and recovery in a high-performance computing (HPC) system
KR100748715B1 (ko) * 2005-12-27 2007-08-13 주식회사 텔레칩스 하드웨어 작업관리 장치
US20070174655A1 (en) * 2006-01-18 2007-07-26 Brown Kyle G System and method of implementing automatic resource outage handling
US8078907B2 (en) * 2006-01-19 2011-12-13 Silicon Graphics, Inc. Failsoft system for multiple CPU system
US8516444B2 (en) 2006-02-23 2013-08-20 International Business Machines Corporation Debugging a high performance computing program
US7512836B2 (en) * 2006-12-11 2009-03-31 International Business Machines Corporation Fast backup of compute nodes in failing midplane by copying to nodes in backup midplane via link chips operating in pass through and normal modes in massively parallel computing system
JP2008165381A (ja) * 2006-12-27 2008-07-17 Ricoh Co Ltd 画像処理装置及び画像処理方法
US8412981B2 (en) * 2006-12-29 2013-04-02 Intel Corporation Core sparing on multi-core platforms
US9330230B2 (en) * 2007-04-19 2016-05-03 International Business Machines Corporation Validating a cabling topology in a distributed computing system
JP2009104300A (ja) * 2007-10-22 2009-05-14 Denso Corp データ処理装置及びプログラム
US7870365B1 (en) 2008-07-07 2011-01-11 Ovics Matrix of processors with data stream instruction execution pipeline coupled to data switch linking to neighbor units by non-contentious command channel / data channel
US7958341B1 (en) 2008-07-07 2011-06-07 Ovics Processing stream instruction in IC of mesh connected matrix of processors containing pipeline coupled switch transferring messages over consecutive cycles from one link to another link or memory
US8131975B1 (en) 2008-07-07 2012-03-06 Ovics Matrix processor initialization systems and methods
US8145880B1 (en) 2008-07-07 2012-03-27 Ovics Matrix processor data switch routing systems and methods
US8327114B1 (en) 2008-07-07 2012-12-04 Ovics Matrix processor proxy systems and methods
JP2010086363A (ja) * 2008-10-01 2010-04-15 Fujitsu Ltd 情報処理装置及び装置構成組み換え制御方法
US20110202995A1 (en) * 2010-02-16 2011-08-18 Honeywell International Inc. Single hardware platform multiple software redundancy
US8718079B1 (en) 2010-06-07 2014-05-06 Marvell International Ltd. Physical layer devices for network switches
US8713362B2 (en) 2010-12-01 2014-04-29 International Business Machines Corporation Obviation of recovery of data store consistency for application I/O errors
US8694821B2 (en) 2010-12-03 2014-04-08 International Business Machines Corporation Generation of standby images of applications
CN111811116A (zh) * 2020-07-07 2020-10-23 北京丰联奥睿科技有限公司 一种多联空调系统的配置方法
WO2023068960A1 (ru) * 2021-10-20 2023-04-27 Федеральное Государственное Унитарное Предприятие "Российский Федеральный Ядерный Центр - Всероссийский Научно - Исследовательский Институт Технической Физики Имени Академика Е.И. Забабахина" Компактный суперкомпьютер

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61201365A (ja) 1985-03-04 1986-09-06 Nippon Telegr & Teleph Corp <Ntt> 並列処理システムの自動再構成方式
JPS62274454A (ja) 1986-05-23 1987-11-28 Hitachi Ltd 並列処理計算機
US4907232A (en) 1988-04-28 1990-03-06 The Charles Stark Draper Laboratory, Inc. Fault-tolerant parallel processing system
JPH03132861A (ja) * 1989-10-19 1991-06-06 Agency Of Ind Science & Technol マルチプロセッサ・システムの再構成制御方式
US5963746A (en) * 1990-11-13 1999-10-05 International Business Machines Corporation Fully distributed processing memory element
US5594918A (en) * 1991-05-13 1997-01-14 International Business Machines Corporation Parallel computer system providing multi-ported intelligent memory
US5715391A (en) * 1991-11-15 1998-02-03 International Business Machines Corporation Modular and infinitely extendable three dimensional torus packaging scheme for parallel processing
US5271014A (en) * 1992-05-04 1993-12-14 International Business Machines Corporation Method and apparatus for a fault-tolerant mesh with spare nodes
EP0570729A3 (en) 1992-05-22 1994-07-20 Ibm Apap i/o programmable router
JPH06290158A (ja) 1993-03-31 1994-10-18 Fujitsu Ltd 再構成可能なトーラス・ネットワーク方式
US5592610A (en) * 1994-12-21 1997-01-07 Intel Corporation Method and apparatus for enhancing the fault-tolerance of a network
US6002851A (en) * 1997-01-28 1999-12-14 Tandem Computers Incorporated Method and apparatus for node pruning a multi-processor system for maximal, full connection during recovery
US6189112B1 (en) * 1998-04-30 2001-02-13 International Business Machines Corporation Transparent processor sparing
US6115829A (en) * 1998-04-30 2000-09-05 International Business Machines Corporation Computer system with transparent processor sparing
GB2359162B (en) * 1998-11-10 2003-09-10 Fujitsu Ltd Parallel processor system
FR2795840B1 (fr) * 1999-07-02 2001-08-31 Commissariat Energie Atomique Reseau de processeurs paralleles avec tolerance aux fautes de ces processeurs, et procede de reconfiguration applicable a un tel reseau
US6789213B2 (en) * 2000-01-10 2004-09-07 Sun Microsystems, Inc. Controlled take over of services by remaining nodes of clustered computing system
JP3674515B2 (ja) * 2000-02-25 2005-07-20 日本電気株式会社 アレイ型プロセッサ
AU2002220600A1 (en) * 2000-10-06 2002-04-15 Pact Informationstechnologie Gmbh Cell system with segmented intermediate cell structure
WO2002084509A1 (en) 2001-02-24 2002-10-24 International Business Machines Corporation A novel massively parrallel supercomputer
WO2002069469A1 (en) * 2001-02-24 2002-09-06 International Business Machines Corporation Fault tolerance in a supercomputer through dynamic repartitioning
US7080156B2 (en) * 2002-03-21 2006-07-18 Sun Microsystems, Inc. Message routing in a torus interconnect

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100367223C (zh) * 2004-05-27 2008-02-06 国际商业机器公司 用于发现电路中的缺陷的方法和系统
CN101271417B (zh) * 2007-03-22 2010-10-13 国际商业机器公司 修复数据处理系统的方法、数据处理系统及信息处置系统
CN101359320B (zh) * 2007-07-31 2012-06-27 惠普开发有限公司 多处理器系统中的单元兼容性

Also Published As

Publication number Publication date
JP4524073B2 (ja) 2010-08-11
EP1374360A1 (en) 2004-01-02
KR20030077034A (ko) 2003-09-29
JP2007220147A (ja) 2007-08-30
JP2004532447A (ja) 2004-10-21
WO2002069469A1 (en) 2002-09-06
US20040153754A1 (en) 2004-08-05
KR100570145B1 (ko) 2006-04-12
CN1319237C (zh) 2007-05-30
US7185226B2 (en) 2007-02-27
EP1374360A4 (en) 2010-02-17
JP4577851B2 (ja) 2010-11-10

Similar Documents

Publication Publication Date Title
CN1319237C (zh) 超级计算机中通过动态重新划分的容错
US4247892A (en) Arrays of machines such as computers
Chean et al. A taxonomy of reconfiguration techniques for fault-tolerant processor arrays
CN1232916C (zh) 用于在故障出现时维持全部性能的文件服务器的双尾故障终止
Boppana et al. Fault-tolerant wormhole routing algorithms for mesh networks
Despain et al. X-Tree: A tree structured multi-processor computer architecture
US5280607A (en) Method and apparatus for tolerating faults in mesh architectures
CN1229739C (zh) 全局中断和障碍网络
Lowrie et al. Reconfigurable tree architectures using subtree oriented fault tolerance
US5271014A (en) Method and apparatus for a fault-tolerant mesh with spare nodes
Rajasekaran et al. Randomized routing, selection, and sorting on the OTIS-mesh
GB2262174A (en) Reconfigurable signal processor
EP0392216B1 (en) Network rearrangement method and system
US8504731B2 (en) Network for interconnecting computers
Kuo et al. Reconfigurable cube-connected cycles architectures
Sakai et al. Design and implementation of a circular omega network in the EM-4
Parhami Fault tolerance properties of mesh-connected parallel computers with separable row/column buses
Chittor et al. Link switching: a communication architecture for configurable parallel systems
Agrawal et al. Comparative study of multicomputer systems
Kung et al. A General Switch Architecture for Fault-Tolerant VLSI Processor Arrays
Rahman Hierarchical interconnection networks for massively parallel computers
Avermiddig et al. kk Sorting on the multi-mesh
Choi An easily-diagnosable fault-tolerant binary tree architecture
Wang Linked crossbar architecture for multicomputer interconnection
Choudhary et al. NETRA: A parallel architecture for integrated vision systems. 1: Architecture and organization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070530

Termination date: 20190225

CF01 Termination of patent right due to non-payment of annual fee