CN1493031A - 用于在故障出现时维持全部性能的文件服务器的双尾故障终止 - Google Patents

用于在故障出现时维持全部性能的文件服务器的双尾故障终止 Download PDF

Info

Publication number
CN1493031A
CN1493031A CNA028054229A CN02805422A CN1493031A CN 1493031 A CN1493031 A CN 1493031A CN A028054229 A CNA028054229 A CN A028054229A CN 02805422 A CN02805422 A CN 02805422A CN 1493031 A CN1493031 A CN 1493031A
Authority
CN
China
Prior art keywords
file server
memory device
file
main
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028054229A
Other languages
English (en)
Other versions
CN1232916C (zh
Inventor
保罗W・科特尤斯
保罗W·科特尤斯
ぜ永
艾伦G·加拉
ぜ帜放僚
马克E·贾姆帕帕
・海德伯格
菲利普·海德伯格
德D・斯坦马彻-伯罗
伯克哈德D·斯坦马彻-伯罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1493031A publication Critical patent/CN1493031A/zh
Application granted granted Critical
Publication of CN1232916C publication Critical patent/CN1232916C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D25/00Pumping installations or systems
    • F04D25/16Combinations of two or more pumps ; Producing two or more separate gas flows
    • F04D25/166Combinations of two or more pumps ; Producing two or more separate gas flows using fans
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D27/00Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
    • F04D27/004Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17356Indirect interconnection networks
    • G06F15/17368Indirect interconnection networks non hierarchical topologies
    • G06F15/17381Two dimensional, e.g. mesh, torus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • G09G5/006Details of the interface to the display terminal
    • G09G5/008Clock recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L7/00Arrangements for synchronising receiver with transmitter
    • H04L7/02Speed or phase control by the received code signals, the signals containing no special synchronisation information
    • H04L7/033Speed or phase control by the received code signals, the signals containing no special synchronisation information using the transitions of the received signal to control the phase of the synchronising-signal-generating means, e.g. using a phase-locked loop
    • H04L7/0337Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals
    • H04L7/0338Selecting between two or more discretely delayed clocks or selecting between two or more discretely delayed received code signals the correction of the phase error being performed by a feed forward loop
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/70Control systems characterised by their outputs; Constructional details thereof
    • F24F11/72Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure
    • F24F11/74Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity
    • F24F11/77Control systems characterised by their outputs; Constructional details thereof for controlling the supply of treated air, e.g. its pressure for controlling air flow rate or air velocity by controlling the speed of ventilators
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B30/00Energy efficient heating, ventilation or air conditioning [HVAC]
    • Y02B30/70Efficient control or regulation technologies, e.g. for control of refrigerant flow, motor or heating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Analysis (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Discrete Mathematics (AREA)
  • Thermal Sciences (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种用于在出现故障时监视文件系统(100)的全部性能的方法。该文件系统有N个存储设备(108),这里N是大于零的整数,和N个主文件服务器(104),每一个文件服务器可操作连接到一个相应的存储设备(110)以访问那里的文件。该文件系统另外还有一个辅助文件服务器(104a),它可操作连接到N个存储设备中的至少一个。所述方法包括:当N个主文件服务器之一出现故障时,切换N个存储设备中的一个的连接到辅助文件服务器;切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。

Description

用于在故障出现时维持 全部性能的文件服务器的双尾故障终止
对相关申请的交叉参考
本发明要求享受于2001年2月24日提交的、名为“MassivelyParallel Supercomputer”的共同拥有的待审美国临时专利申请60/271,124的优先权,它的全部内容和公开特意被结合在这里作为参考,如同在这里完全叙述的一样。本专利申请另外与下面共同拥有的、与本申请同一天递交的待审美国专利申请相关,它们中的每一篇的全部内容和公开特意被结合在这里作为参考,如同在这里完全叙述的一样。美国专利申请(YOR920020027US1,YOR920020044US1(15270)),名称为“Class Networking Routing”;美国专利申请(YOR920020028US1(15271)),名称为“A Global Tree Network forComputing Structures”;美国专利申请(YOR920020029US1(15272)),名称为“Global Interrupt and Barrier Networks”;美国专利申请(YOR920020030US1(15273)),名称为“Optimized Scalable NetworkSwitch”;美国专利申请(YOR920020031US1,YOR920020032US1(15258)),名称为“Arithmetic Functions in Torus and TreeNetworks”;美国专利申请(YOR920020033US1,YOR920020034US1(15259)),名称为“Data Capture Technique for High SpeedSignaling”;美国专利申请(YOR920020035US1(15260)),名称为“Managing Coherence Via Put/Get Windows”;美国专利申请(YOR920020036US1,YOR920020037US1(15261)),名称为“Low LatencyMemory Access And Synchronization”;美国专利申请(YOR920020038US1(15276)),名称为“Twin-Tailed Fail-Over forFileservers Maintaining Full Performance”;美国专利申请(YOR920020039US1(15277)),名称为“Fault Isolation ThroughNo-Overhead Link Level Checksums”;美国专利申请(YOR920020040US1(15278)),名称为“Ethernet Addressing via Physical Locationfor Massively Parallel Systems”;美国专利申请(YOR920020041US1(15274)),名称为“Fault Tolerance in a Supercomputer ThroughDynamic Repartitioning”;美国专利申请(YOR920020042US1(15279)),名称为“Checkpointing Filesystem”;美国专利申请(YOR920020043US1(15262)),名称为“Efficient Implementationof Multidimensional Fast Transform on a Distributed-MemoryParallel Multi-Node Computer”;美国专利申请(YOR9-20010211US2(15275)),名称为“A Novel Masssively Parallel Supercomputer”;和美国专利申请(YOR920020045US1(15263)),名称为“Smart FanModules and System”。
发明背景技术
发明领域
本发明一般涉及用于文件服务器的故障切换系统和方法,尤其是涉及分布式存储器消息传递并行计算机设计和系统软件,其例如可以应用于生命科学领域中的计算。
现有技术
用于在并行计算机设计中在文件服务器出现故障时提供故障切换的系统和方法在本领域中是公知的。然而,这种系统和方法以降低系统性能作为代价提供故障切换。因此,现有技术的故障切换系统和方法对于由计算机运行的应用程序来说无论在整体性能上还是在输入/输出(I/O)连接性上都是不透明的。
发明概述
因此,本发明的一个目的是提供用于文件系统的故障切换系统和方法,它们克服了与现有技术关联的缺点。
因此提供了用于计算机的一个文件系统。该文件系统包括:N个存储设备,这里N是大于零的整数;N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问其中的文件;一个辅助文件服务器,可操作连接到N个存储设备中的至少一个;其中,在N个主文件服务器之一出现故障时,N个存储设备中的一个切换它的连接到辅助文件服务器,剩余的一个或者多个存储设备在需要时切换它们的连接到一个不同于发生故障的文件服务器的主文件服务器以防止损失性能并给每一存储设备提供一个运行的文件服务器。
在文件系统的一个优选的实现中,N个存储设备中的每一个包括多个磁盘驱动器。该多个磁盘驱动器最好是包括可靠的廉价磁盘阵列(RAID)。在文件系统的另一个优选实现中,N个主文件服务器和辅助文件服务器的每一个都是PC。
优选地,N个存储设备中的至少一个具有第一和第二连接,这里第一连接可操作连接该存储设备到一个主文件服务器,第二连接可操作连接该存储设备到辅助文件服务器。第一和第二连接最好是SCSI总线连接。优选地,至少一个主文件服务器或辅助文件服务器具有一个双通道SCSI控制器,双通道中的一个通道可操作连接到N个存储设备中的一个,而双通道中的另一个通道可操作连接到N个存储设备的其它一个上。
还提供了一个计算机系统。所述计算机系统包括:可操作连接到一个文件系统的I/O节点;文件系统包括:N个存储设备,这里N是大于零的整数;N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问那里的文件;和一个辅助文件服务器,可操作连接到N个存储设备中的至少一个,其中,在N个主文件服务器之一出现故障时,N个存储设备中的一个切换它的连接到辅助文件服务器,剩余的一个或者多个存储设备在需要时切换它们的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。
在计算机系统的一个优选的实现中,N个存储设备中的每一个包括多个磁盘驱动器。该多个磁盘驱动器最好是包括可靠的廉价磁盘阵列(RAID)。在计算机系统的另一个优选的实现中,N个主文件服务器和辅助文件服务器的每一个都是PC。
优选地,N个存储设备中的至少一个具有第一和第二连接,这里第一连接可操作连接该存储设备到一个主文件服务器,第二连接可操作连接该存储设备到辅助文件服务器。第一和第二连接最好是SCSI总线连接。优选地,主文件服务器和辅助文件服务器中的至少一个具有一个双通道SCSI控制器,双通道中的一个通道可操作连接到N个存储设备之一,而双通道中的另一个通道可操作连接到N个存储设备的其它一个上。
另外提供一种用于在出现故障时维持文件系统全部性能的方法。该文件系统有N个存储设备和N个主文件服务器,这里N是大于零的整数,每一个文件服务器可操作连接到相应的存储设备以访问那里的文件。该文件系统另外还有一个辅助文件服务器,它可操作连接到N个存储设备中的至少一个。所述方法包括:当N个主文件服务器之一出现故障时,切换N个存储设备中的一个的连接到辅助文件服务器;以及在需要时切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。这样,所述方法以这种方式切换连接,使得不损失性能和使文件服务器上产生的负载均衡。
另外提供的是一种计算机程序产品,被包含在计算机可读介质中,用以在出现故障时维持文件系统的全部性能。所述文件系统有N个存储设备,这里N是大于零的整数;和N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问在那里的文件。该文件系统另外还有一个辅助文件服务器,它可操作连接到N个存储设备中的至少一个。该计算机程序产品包括:用于在N个主文件服务器之一出现故障时切换N个存储设备中一个的连接到辅助文件服务器的计算机可读程序代码装置;和用于在需要时切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器的计算机可读程序代码装置,以防止损失性能并给每一存储设备提供一个运行的文件服务器。因此,如上所述,以这种方式切换连接,使得不损失性能和使文件服务器上产生的负载均衡。
另外提供的是一个可由机器读取的程序存储设备,有形地包含可由机器执行的指令程序以执行用于在出现故障时维持文件系统的全部性能的方法步骤。所述文件系统有N个存储设备,这里N是大于零的整数,和N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问在那里的文件。该文件系统另外还有一个辅助文件服务器,它可操作连接到N个存储设备中的至少一个。所述方法包括:在N个主文件服务器之一出现故障时切换N个存储设备中的一个的连接到辅助文件服务器;和在需要时切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。因此,所述方法包括以这种方式切换连接,使得不损失性能和使文件服务器上产生的负载均衡。
附图简要说明
参考下面的说明、所附权利要求和附图,本发明的装置及方法的这些以及其它特征、方面、和优点将被更好地理解,其中:
图1显示了根据本发明的一个优选实现的计算机系统的I/O节点和文件系统的正常运行方式。
图2显示了图1的计算系统,其中文件系统的一个文件服务器出现故障。
图3是图1的具有5个文件服务器和4个存储设备的文件系统的示意图。
图4显示了图3的文件系统,其中所有的主文件服务器都正常工作。
图5显示了图3的文件系统,其中末端文件服务器损坏了。
图6显示了图3的文件系统,其中中间文件服务器损坏了。
最佳实施例的详细说明
虽然本发明可应用于大量的和各种类型的故障终止系统,但是发现它在巨型并行计算机的故障终止系统环境中特别有用。因此,在不限制本发明对巨型并行计算机的故障终止系统的可应用性的同时,在这种环境中对本发明加以说明。这种巨型并行计算机系统在下面的待审美国专利申请中说明:序列号——————(代理人卷宗号15258);——————(代理人卷宗号15259);———————(代理人卷宗号15260);———————(代理人卷宗号15261);——————(代理人卷宗号15262);———————(代理人卷宗号15263);——————(代理人卷宗号15270);———————(代理人卷宗号15271);———————(代理人卷宗号15272);———————(代理人卷宗号15273);———————(代理人卷宗号15274);——————(代理人卷宗号15275);——————(代理人卷宗号15277);————————(代理人卷宗号15278);——————(代理人卷宗号15279);它们的全部公开被包含在此作为参考。
现在参考图1,显示了一个计算机系统,总体用附图标记100表示。计算机系统100使用硬件和软件结构和算法的组合来解决与上述现有技术关联的问题。计算机系统100包括文件系统102,它以一些“N/N+1故障终止集群”排列,这里,每一个故障终止集群在每一I/O节点106包含一个处理器,也称为文件服务器104,以及至少一个联机备用文件服务器104a。在一个优选的实现中,计算机100是巨型并行系统,而文件系统使用架子上安装的商用PC作为文件服务器104。
每一个文件服务器104,包括备用服务器104a,具有对两个或者更多存储设备108的直接访问。虽然图1显示了每一文件服务器104直接访问两个存储设备108,但是这种配置被显示为一种优选的实现,并不限制本发明的精神和范围。然而,如在下面要说明的,每一文件服务器104可以直接访问多于两个存储设备108。优选地,每一文件服务器104包括一个双通道SCSI控制器。在这种优选配置中,一个SCSI通道被指定为到存储设备108的“主”接口,另一个通道被设置在到第二存储设备108的热备份、或“故障终止”方式,准备如果用于存储设备108的主文件服务器104损坏的话则恢复文件系统接口。
每一文件服务器104包含一个“远程管理”接口。这种接口的一个例子是因特尔服务器上的“基本管理控制器”(BMC),它经由以太网或到每一文件服务器104的串行连接提供远程配置、启动、打开/关闭电源和监视文件服务器104的性能。此外,每一文件服务器104最好是具有诸如千兆位以太网连接的数据连接。这一连接通过多端口千兆位以太网交换机提供到计算机100的I/O节点106的接口。
存储设备108最好是热交换SCSI磁盘盒,每一个在标准架子上安装的框架中包括多个磁盘驱动器。优选地,磁盘盒包括一个多通道硬件RAID(可靠的廉价磁盘阵列)控制器、冗余电源和两个外部SCSI总线连接。硬件RAID控制器最好是把多个磁盘驱动器组成RAID“条带集”,并且支持几种条带集结构,从RAID-0(无保护的简单分条)到RAID-5(具有奇偶校验保护的块旋转分条)。更高级的RAID也可以由这个被称为“延伸”的硬件组织支持,这里多个RAID条组横跨更大的磁盘驱动器阵列一起组成条。它的一个例子是RAID-50,其中,两个或者多个RAID-5条组横跨一个较大的磁盘驱动器集群组成条。然而,优选RAID-5,是因为它能够提供所需要的可靠性而不产生RAID-50系统为它提供的可靠性的少量增加所引起的附加的复杂性和费用。
每一文件服务器104连接到两个或者更多个存储设备108,它们通过“双尾”SCSI互联存取,意味着它们的内部SCSI总线在每一端连接到一个不同的主机。在这些文件服务器104中的任何一个发生故障的情况下,具有到一个特别的存储设备108的直接互联的计算机I/O节点106对文件服务器节点110的一对一关系通过I/O节点106和其余的文件服务器节点110的协调得以维持。这种协调通过同时切换需要数目的文件服务器节点110从它们的主双尾连接(以实线表示)到它们的辅助连接(以虚线表示)来实现。
在下面的例子中会看到,取决于哪一个文件服务器发生了故障,从零到剩余文件服务器节点的数目减1的任何一个(110)都将切换、亦即故障切换到它们的辅助连接。平均说,需要切换一半的文件服务器节点110。以这种方式,每一存储设备108将继续有一个与其对应的工作的文件服务器104。与文件服务器110的故障终止的同时,计算机I/O节点106还通过切换它们用来对一个特别的文件系统执行I/O的文件服务器104,来切换它们的逻辑连接到特定的存储设备108。如图2所示,在文件服务器104b发生故障时,到备份文件服务器104a的辅助连接成为主连接,并且存储设备108a切换它与发生故障的文件服务器104b的主连接。本领域技术人员将会认识到,性能(带宽)不会有损失,并且假定从计算机I/O节点产生的负载相等,则在每一文件服务器104上的负载相等。本领域技术人员还将会认识到,整个故障终止方法相对于总性能和I/O连接性来说对应用程序是透明的。这是因为计算机I/O节点106透明地维持对每一存储设备108的直接连接和在任何故障出现时以协调方式改变连接方向。
现在参考图3,图中显示了本发明的文件系统102的一个例子,它具有4(N)个存储设备108和5(N+1)个文件服务器104。优选地,每一文件服务器104是PC,而每一存储设备108是独立的RAID-5单元。I/O存储设备108的数目与I/O节点106的数目匹配。每一存储设备108有两个外部SCSI总线连接,这在上面已说明。一个SCSI连接连接到一个主文件服务器104,另一个连接到一个不同的辅助文件服务器104。于是中间文件服务器104用作用于一个存储设备108的主文件服务器104,和用于另一个存储设备108的辅助文件服务器104。只有主文件服务器104有效地服务于存储设备108,但是如果主文件服务器发生故障,则辅助文件服务器104a将接管。这样,文件服务器104在存储设备108的SCSI或其它磁盘协议和I/O节点106的以太网或者其它组网协议之间可靠转换。如果要使用4(N)个文件服务器104,在这4个文件服务器104中有一个损坏时,则它的辅助文件服务器104将继续用作用于另一个存储设备108的主文件服务器104。这样对受影响的存储设备108的性能可能减少二分之一。为避免这种性能的降低,如上所述,使用“N/N+1故障终止集群”方案,这里N是存储设备108的数目,N+1是文件服务器104的数目。
假定N=4,4/5故障终止集群的存储设备108和文件服务器104如图3所示布置,其中实线指示用于每一存储设备108的主连接,而虚线指示用于每一存储设备108的辅助连接。在所有的主文件服务器104工作正常时,有效的文件服务器如图4所示。如果最左边的文件服务器104b发生故障,则使用辅助文件服务器104,如图5所示。如果中间文件服务器104b发生故障,则连接如图6所示。
如同上面的例子表示的,对于每一个存储设备108,它到文件服务器104的SCSI连接只有一个是有效的。如果一个文件服务器104b发生故障,则它的相应存储设备108切换到另一个文件服务器104。如果该文件服务器104正服务于另一个存储设备108,则该服务转移到相邻的文件服务器104。它的邻居也这样做,如果需要的话,导致每一个文件服务器104只服务于单个存储设备108。这样,一个文件服务器104的故障,取决于它在N/N+1故障终止集群中的位置,引起在1个和N个存储设备108之间移动到不同的文件服务器104。这样,这种文件服务器104的任何I/O节点106必须使用一个不同的文件服务器104。
本领域技术人员将会了解,可以根据本发明配置文件系统102,其中每一存储设备108连接到多于两个的文件服务器104,例如连接到三个文件服务器104,一个主文件服务器和两个辅助文件服务器。本领域技术人员将会理解,如果在这种配置中一个文件服务器104发生故障,则它的相应存储设备108可以切换到另一个文件服务器104,并且在剩余的存储设备108中间引起最小量的切换。
本发明的方法特别适合由计算机软件程序执行,这种计算机软件程序最好是包含相应于该方法单个步骤的模块。这种软件当然可以包含在计算机可读介质、诸如集成芯片或外围设备中。
虽然已经显示和说明了被认为是本发明的优选实施例,但是当然应该理解,在形式和细节上可以容易地进行各种修改和改变,而不离开本发明的精神。因此意图不把本发明限制在所描述和说明的精确形式上,而应该理解为覆盖可能落在附加权利要求的范围之内的所有修改。

Claims (17)

1.用于计算机的文件系统,该文件系统包括:
N个存储设备,这里N是大于零的整数;
N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问在那里的文件;和
一个辅助文件服务器,它可操作连接到N个存储设备中的至少一个;
其中,当N个主文件服务器之一出现故障时,N个存储设备中的一个切换它的连接到辅助文件服务器,剩余的一个或者多个存储设备在需要时切换它们的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。
2.如权利要求1所述的文件系统,其中,N个存储设备中的每一个包括多个磁盘驱动器。
3.如权利要求2所述的文件系统,其中所述多个磁盘驱动器包括可靠的廉价磁盘阵列(RAID)。
4.如权利要求1所述的文件系统,其中,N个主文件服务器和辅助文件服务器的每一个都是PC。
5.如权利要求1所述的文件系统,其中,N个存储设备中的至少一个具有第一和第二连接,第一连接可操作连接该存储设备到一个主文件服务器,第二连接可操作连接该存储设备到辅助文件服务器。
6.如权利要求5所述的文件系统,其中,第一和第二连接是SCSI总线连接。
7.如权利要求6所述的文件系统,其中主文件服务器和辅助文件服务器中至少一个具有一个双通道SCSI控制器,双通道中的一个可操作连接到N个存储设备之一,而双通道中的另一个可操作连接到N个存储设备的其它一个上。
8.一个计算机系统,包括:
可操作连接到一个文件系统的I/O节点;
文件系统包括:N个存储设备,这里N是大于零的整数;N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问那里的文件;一个辅助文件服务器,可操作连接到N个存储设备中的至少一个,其中,N个主文件服务器之一出现故障时,N个存储设备中的一个切换它的连接到辅助文件服务器,剩余的一个或者多个存储设备在需要时切换它们的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。
9.如权利要求8所述的计算机系统,其中N个存储设备中的每一个包括多个磁盘驱动器。
10.如权利要求9所述的计算机系统,其中所述多个磁盘驱动器包括可靠的廉价磁盘阵列(RAID)。
11.如权利要求8所述的计算机系统,其中,N个主文件服务器和辅助文件服务器的每一个都是PC。
12.如权利要求8所述的计算机系统,其中,N个存储设备中的至少一个具有第一和第二连接,第一连接可操作连接该存储设备到一个主文件服务器,第二连接可操作连接该存储设备到辅助文件服务器。
13.如权利要求12所述的计算机系统,其中,第一和第二连接是SCSI总线连接。
14.如权利要求13所述的计算机系统,其中,主文件服务器和辅助文件服务器中至少一个具有一个双通道SCSI控制器,双通道中的一个通道可操作连接到N个存储设备之一,而双通道中的另一个通道可操作连接到N个存储设备的其它一个上。
15.一种用于在出现故障时维持文件系统的全部性能的方法,所述文件系统有N个存储设备,这里N是大于零的整数,和N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问那里的文件,和一个辅助文件服务器,可操作连接到N个存储设备中的至少一个,所述方法包括:
当N个主文件服务器之一出现故障时,切换N个存储设备中的一个的连接到辅助文件服务器;
在需要时切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。
16.一种计算机程序产品,包含在计算机可读介质中,用以在出现故障时维持文件系统的全部性能,所述文件系统有N个存储设备,这里N是大于零的整数;N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问在那里的文件;和一个辅助文件服务器,可操作连接到N个存储设备中的至少一个,该计算机程序产品包括:
用于在N个主文件服务器之一出现故障时切换N个存储设备中的一个的连接到辅助文件服务器的计算机可读程序代码装置;和
用于在需要时切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器的计算机可读程序代码装置,以防止损失性能并给每一存储设备提供一个运行的文件服务器。
17.一个可由机器读取的程序存储设备,有形地包含可由机器执行的指令程序以执行用于在出现故障时维持文件系统全部性能的方法步骤,所述文件系统有N个存储设备,这里N是大于零的整数,N个主文件服务器,每一个文件服务器可操作连接到相应的存储设备以访问在那里的文件,和一个辅助文件服务器,可操作连接到N个存储设备中的至少一个,所述方法包括:
在N个主文件服务器之一出现故障时切换N个存储设备中的一个的连接到辅助文件服务器;和
在需要时切换剩余的一个或者多个存储设备的连接到一个不同于发生故障的文件服务器的主文件服务器,以防止损失性能并给每一存储设备提供一个运行的文件服务器。
CNB028054229A 2001-02-24 2002-02-25 用于在故障出现时维持全部性能的文件服务器的双尾故障终止 Expired - Fee Related CN1232916C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US27112401P 2001-02-24 2001-02-24
US60/271,124 2001-02-24
PCT/US2002/005614 WO2002069162A1 (en) 2001-02-24 2002-02-25 Twin-tailed fail-over for fileservers maintaining full performance in the presence of a failure

Publications (2)

Publication Number Publication Date
CN1493031A true CN1493031A (zh) 2004-04-28
CN1232916C CN1232916C (zh) 2005-12-21

Family

ID=68499839

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028054229A Expired - Fee Related CN1232916C (zh) 2001-02-24 2002-02-25 用于在故障出现时维持全部性能的文件服务器的双尾故障终止

Country Status (6)

Country Link
US (1) US7330996B2 (zh)
EP (1) EP1402381A4 (zh)
JP (1) JP4107651B2 (zh)
KR (1) KR100553145B1 (zh)
CN (1) CN1232916C (zh)
WO (1) WO2002069162A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100364266C (zh) * 2004-07-23 2008-01-23 北京数码大方科技有限公司 一种混合分布式文件管理仓储系统及相关方法
CN102541693A (zh) * 2011-12-31 2012-07-04 曙光信息产业股份有限公司 数据的多副本存储管理方法和系统
CN104735973A (zh) * 2012-04-24 2015-06-24 弗森电子有限公司 用于农场系统的方法、控制器、消息接收模块、数据消息格式和网络协议
CN101925907B (zh) * 2008-01-23 2015-11-25 国际商业机器公司 在多节点计算机系统上使用虚拟专用网保护数据空间
CN105376289A (zh) * 2014-09-01 2016-03-02 重庆好吃狗云计算科技有限公司 一种无损快速恢复数据和系统运行的方法
CN106055276A (zh) * 2016-05-25 2016-10-26 极道科技(北京)有限公司 一种非集中式集群存储系统
CN109783280A (zh) * 2019-01-15 2019-05-21 上海海得控制系统股份有限公司 共享存储系统和共享存储方法
CN110417922A (zh) * 2019-09-11 2019-11-05 北京搜狐新动力信息技术有限公司 一种数据传输方法、装置及系统

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654241B2 (en) * 2001-06-29 2003-11-25 Intel Corporation High availability small foot-print server
JP4039276B2 (ja) * 2003-03-05 2008-01-30 富士ゼロックス株式会社 サービス処理システム及びプログラム
US7376859B2 (en) * 2003-10-20 2008-05-20 International Business Machines Corporation Method, system, and article of manufacture for data replication
US7707282B1 (en) 2004-06-29 2010-04-27 American Megatrends, Inc. Integrated network and management controller
US7668941B1 (en) * 2004-06-29 2010-02-23 American Megatrends, Inc. Systems and methods for implementing a TCP/IP stack and web interface within a management module
US20060143502A1 (en) * 2004-12-10 2006-06-29 Dell Products L.P. System and method for managing failures in a redundant memory subsystem
US7480816B1 (en) * 2005-08-04 2009-01-20 Sun Microsystems, Inc. Failure chain detection and recovery in a group of cooperating systems
JP4839841B2 (ja) * 2006-01-04 2011-12-21 株式会社日立製作所 スナップショット再起動方法
US7461289B2 (en) * 2006-03-16 2008-12-02 Honeywell International Inc. System and method for computer service security
KR100922584B1 (ko) 2006-12-01 2009-10-21 한국전자통신연구원 객체 기반 분산 공유 시스템 및 그의 방법
TW200832128A (en) * 2007-01-26 2008-08-01 Rdc Semiconductor Co Ltd Redundant system
US20080201524A1 (en) * 2007-02-15 2008-08-21 Harris Corporation System and method for increasing video server storage bandwidth
JP2009104300A (ja) * 2007-10-22 2009-05-14 Denso Corp データ処理装置及びプログラム
JP5232602B2 (ja) * 2008-10-30 2013-07-10 株式会社日立製作所 ストレージ装置、及びストレージコントローラ内部ネットワークのデータ経路フェイルオーバー方法
US8145838B1 (en) 2009-03-10 2012-03-27 Netapp, Inc. Processing and distributing write logs of nodes of a cluster storage system
US8327186B2 (en) * 2009-03-10 2012-12-04 Netapp, Inc. Takeover of a failed node of a cluster storage system on a per aggregate basis
US8069366B1 (en) 2009-04-29 2011-11-29 Netapp, Inc. Global write-log device for managing write logs of nodes of a cluster storage system
JP5910117B2 (ja) * 2012-01-30 2016-04-27 富士通株式会社 ファイルシステム
JP6036190B2 (ja) * 2012-11-07 2016-11-30 富士通株式会社 情報処理装置、情報処理システムの制御方法及び情報処理システムの制御プログラム
CN111026585B (zh) * 2019-12-05 2023-03-17 四川湖山电器股份有限公司 一种录播系统中的存储服务器热备切换方法
CN113566391A (zh) * 2020-04-29 2021-10-29 青岛海尔空调电子有限公司 空调运行控制方法、装置及空调系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04271454A (ja) * 1991-02-27 1992-09-28 Toshiba Corp 疎結合計算機システム
US5812748A (en) * 1993-06-23 1998-09-22 Vinca Corporation Method for improving recovery performance from hardware and software errors in a fault-tolerant computer system
US5978565A (en) * 1993-07-20 1999-11-02 Vinca Corporation Method for rapid recovery from a network file server failure including method for operating co-standby servers
US5652839A (en) * 1994-03-29 1997-07-29 The United States Of America As Represented By The Secretary Of The Navy Method of non-intrusively sensing status in a computer peripheral
US5566297A (en) * 1994-06-16 1996-10-15 International Business Machines Corporation Non-disruptive recovery from file server failure in a highly available file system for clustered computing environments
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
US5675723A (en) * 1995-05-19 1997-10-07 Compaq Computer Corporation Multi-server fault tolerance using in-band signalling
US5852724A (en) * 1996-06-18 1998-12-22 Veritas Software Corp. System and method for "N" primary servers to fail over to "1" secondary server
JP2830857B2 (ja) * 1996-09-09 1998-12-02 三菱電機株式会社 データストレージシステム及びデータストレージ管理方法
US5996086A (en) * 1997-10-14 1999-11-30 Lsi Logic Corporation Context-based failover architecture for redundant servers
JPH11163970A (ja) * 1997-11-28 1999-06-18 Oki Electric Ind Co Ltd 装置内基盤制御システム
US5954694A (en) * 1998-08-07 1999-09-21 Embol-X, Inc. Nested tubing sections and methods for making same
US6412079B1 (en) * 1998-10-09 2002-06-25 Openwave Systems Inc. Server pool for clustered system
JP3545252B2 (ja) * 1999-03-30 2004-07-21 富士通株式会社 情報処理装置
US6728897B1 (en) * 2000-07-25 2004-04-27 Network Appliance, Inc. Negotiating takeover in high availability cluster
US6990547B2 (en) * 2001-01-29 2006-01-24 Adaptec, Inc. Replacing file system processors by hot swapping
US6845467B1 (en) * 2001-02-13 2005-01-18 Cisco Systems Canada Co. System and method of operation of dual redundant controllers
US6874103B2 (en) * 2001-11-13 2005-03-29 Hewlett-Packard Development Company, L.P. Adapter-based recovery server option

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100364266C (zh) * 2004-07-23 2008-01-23 北京数码大方科技有限公司 一种混合分布式文件管理仓储系统及相关方法
CN101925907B (zh) * 2008-01-23 2015-11-25 国际商业机器公司 在多节点计算机系统上使用虚拟专用网保护数据空间
CN102541693A (zh) * 2011-12-31 2012-07-04 曙光信息产业股份有限公司 数据的多副本存储管理方法和系统
CN104735973A (zh) * 2012-04-24 2015-06-24 弗森电子有限公司 用于农场系统的方法、控制器、消息接收模块、数据消息格式和网络协议
CN104735973B (zh) * 2012-04-24 2018-05-11 弗森电子有限公司 用于农场系统的方法、控制器、消息接收模块、数据消息格式和网络协议
CN105376289A (zh) * 2014-09-01 2016-03-02 重庆好吃狗云计算科技有限公司 一种无损快速恢复数据和系统运行的方法
CN106055276A (zh) * 2016-05-25 2016-10-26 极道科技(北京)有限公司 一种非集中式集群存储系统
CN109783280A (zh) * 2019-01-15 2019-05-21 上海海得控制系统股份有限公司 共享存储系统和共享存储方法
CN110417922A (zh) * 2019-09-11 2019-11-05 北京搜狐新动力信息技术有限公司 一种数据传输方法、装置及系统

Also Published As

Publication number Publication date
EP1402381A4 (en) 2007-07-04
JP2004530972A (ja) 2004-10-07
US7330996B2 (en) 2008-02-12
CN1232916C (zh) 2005-12-21
EP1402381A1 (en) 2004-03-31
WO2002069162A1 (en) 2002-09-06
KR20040004536A (ko) 2004-01-13
JP4107651B2 (ja) 2008-06-25
KR100553145B1 (ko) 2006-02-22
US20040073830A1 (en) 2004-04-15

Similar Documents

Publication Publication Date Title
CN1232916C (zh) 用于在故障出现时维持全部性能的文件服务器的双尾故障终止
US11899932B2 (en) Storage system having cross node data redundancy and method and computer readable medium for same
CN103064769B (zh) 双热备服务器系统
US8074105B2 (en) High data availability SAS-based RAID system
US20020019897A1 (en) Partitioning of storage channels using programmable switches
US7356728B2 (en) Redundant cluster network
US9477592B2 (en) Localized fast bulk storage in a multi-node computer system
US20100312962A1 (en) N-way directly connected any to any controller architecture
WO2006069190A1 (en) Multi-function expansion slots for a storage system
CN103095796A (zh) 通过sas扩展器共享的服务器直连存储
US20100312964A1 (en) Embedded private scale out network
US7752358B2 (en) Storage apparatus and conversion board for increasing the number of hard disk drive heads in a given, limited space
JP4721379B2 (ja) ストレージシステム、ディスク制御クラスタおよびディスク制御クラスタの増設方法
US20030217211A1 (en) Controller communications over an always-on controller interconnect
US10572188B2 (en) Server-embedded distributed storage system
CN106844052A (zh) 一种基于Windows Server构建融合集群的方法及装置
US11341073B2 (en) Redundant paths to single port storage devices
US20040123165A1 (en) Peer power control
CN104503871A (zh) 一种基于小型机系统全冗余模型的实现方法
Dell
JP2007334764A (ja) Nasシステムおよびnasシステムの情報処理方法
CN101076784A (zh) 在失效期间维持数据存储系统运行的技术
US7447842B2 (en) Mass memory device and method for operating a mass memory device
CN210807962U (zh) 私有云系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051221